我试图回答一个问题(后来被删除了),我认为这个问题是要求提取科学记数法的文本表示. (使用R的
regex实现,需要对元字符进行双重转义,并且可以用于纯PCRE或Perl模式,我之间的差异我并不真正理解.)我已经解决了大部分任务但仍然似乎无法捕获捕获组中的前导减号.我似乎唯一能让它成功的方法是使用前导的开括号:
- > txt <- c("this is some random text (2.22222222e-200)","other random (3.33333e4)","yet a third(-1.33333e-40)",'and a fourth w/o the "e" (2.22222222-200)')
- > sub("^(.+\\()([-+]{0,1}[0-9][.][0-9]{1,16}[eE]*[-+]*[0-9]{0,3})(.+$)","\\2",txt)
- [1] "2.22222222e-200" "3.33333e4" "-1.33333e-40" "2.22222222-200"
- > sub("^(.+\\()([-+]?[0-9][.][0-9]{1,txt)
- [1] "2.22222222e-200" "3.33333e4" "-1.33333e-40" "2.22222222-200"
- #but that seems to be "cheating" ... my failures follow:
- > sub("^(.+)([-+]?[0-9][.][0-9]{1,txt)
- [1] "2.22222222e-200" "3.33333e4" "1.33333e-40" "2.22222222-200"
- > sub("^(.+)(-?[0-9][.][0-9]{1,txt)
- [1] "2.22222222e-200" "3.33333e4" "1.33333e-40" "2.22222222-200"
- > sub("^(.+)(-*[0-9][.][0-9]{1,txt)
- [1] "2.22222222e-200" "3.33333e4" "1.33333e-40" "2.22222222-200"
我用“科学记数法正则表达式减去”之类的术语来搜索我的耐心程度
你可以试试
- library(stringr)
- unlist(str_extract_all(txt,'-?[0-9.]+e?[-+]?[0-9]*'))
- #[1] "2.22222222e-200" "3.33333e4" "-1.33333e-40" "2.22222222-200"
在前导括号后使用基于捕获的方法
- str_extract(txt,'(?<=\\()[^)]*')
- #[1] "2.22222222e-200" "3.33333e4" "-1.33333e-40" "2.22222222-200"