?: 是 不想被捕获的时候使用 可以提高程序执行速度 正则基础之——反向引用
正则基础之——捕获组(capture group)
源字符串:abcdebbcde
正则表达式:([ab])\1
对于正则表达式“([ab])\1”,捕获组中的子表达式“[ab]”虽然可以匹配“a”或者“b”,但是捕获组一旦匹配成功,反向引用的内容也就确定了。如果捕获组匹配到“a”,那么反向引用也就只能匹配“a”,同理,如果捕获组匹配到的是“b”,那么反向引用也就只能匹配“b”。由于后面反向引用“\1”的限制,要求必须是两个相同的字符,在这里也就是“aa”或者“bb”才能匹配成功。
考察一下这个正则表达式的匹配过程,在位置0处,由“([ab])”匹配“a”成功,将捕获的内容保存在编号为1的组中,然后把控制权交给“\1”,由于此时捕获组已记录了捕获内容为“a”,“\1”也就确定只有匹配到“a”才能匹配成功,这里显然不满足,“\1”匹配失败,由于没有可供回溯的状态,整个表达式在位置0处匹配失败。
正则引擎向前传动,在位置5之前,“([ab])”一直匹配失败。传动到位置5处时,,“([ab])”匹配到“b”,匹配成功,将捕获的内容保存在编号为1的组中,然后把控制权交给“\1”,由于此时捕获组已记录了捕获内容为“b”,“\1”也就确定只有匹配到“b”才能匹配成功,满足条件,“\1”匹配成功,整个表达式匹配成功,匹配结果为“bb”,匹配开始位置为5,结束位置为7。
扩展一下,正则表达式“([a-z])\1{2}”也就表达连续三个相同的小写字母。
比如 ([a-z][0-9])+ 这个正则表达式里 ( ) 里面的内容被捕获了, 反向引用的时候可以用上 。 一般正则替换的时候用的多 像UBB代码 但是 如果写成 (?:[a-z][0-9])+ 跟上面 正则表达式 整体匹配是一样的 就是 不会捕获 ( )里内容了。 也就是不能使用 反向引用 如果还是不太理解, 那就先了解一下 反向引用吧。
比如 PHP 手册里 有个 正则替换的函数 preg_replace 有的列子 $string = 'April 15,2003'; $pattern = '/(\w+) (\d+),(\d+)/i'; $replacement = '${1}1,$3'; echo preg_replace($pattern,$replacement,$string); // 结果显示 April1,2003 这里就用上了 反响引用 $replacement 里的 ${1} 代表 (\w+),$3代表 第2个 (\d+) 这个正则表达式 里 一共有 3个 () 也就是 可以 用 $1 $2 $3 调用 3个()里的 内容。 也可以使用 \1 \2 \3 来 代替 $1 $2 $3 都是一样的 那接下来 如果把 代码里的 正则表达式 改成下面的 $pattern = '/(?:\w+) (?:\d+),(\d+)/i'; 那 这里 只有 一个 () 里的 内容 能使用 带 ?:的 ()里面内容是不会被 捕获的 ,所以 只能使用 $1 代表最后的 (\d+)(?:X)在正则中表示所匹配的子组X不作为结果输出
正常情况(X)中的X会被作为新增的一个组序号输出,比如(A)(B),A的序号1,B的序号2
如果(?:A)(B),A将没有序号不输出,B的序号为1
比如字符串 aaaa
正则表达式:(\w)((?=\1\1\1)(\1))+
首先匹配的位置是第一个a,开始正则匹配,先是
(\w)匹配 第一个a成功,那么第一个子匹配的值就是a,即 \1 的值为 a,现在匹配的位置是第二个a,继续往下匹配正则,
然后是 ((?=\1\1\1)(\1))+ 这一个整体,首先是 =\1\1\1),预测上面第一个匹配的a 后面要有 3个
a,预测成功,继续往下面执行正则(注意,现在的匹配的位置还是第二个a,预测不会改变匹配的位置),然后是 (\1),\1 的值为 a,所以第2个a匹配成功,现在的匹配的位置是第三个a,本次((?=\1\1\1)(\1))正则表达式匹配完成,由于是 +,要匹配((?=\1\1\1)(\1))一次以上,所以又开始执行(?=\1\1\1)正则,现在要预测上一次正则匹配成功的字符a后面要有3个a(也就是第二个a后面要有3个a),所有本次预测失败,不会进行匹配,那么结果为aa,
原文链接:https://www.f2er.com/regex/360568.html(?x) (\w) # 匹配一个单词字符 ( # 分组开始 (?=\1\1\1) # 紧接着必须是三个和前面的一样的字符,但不吃进字符 (\1) # 匹配一个和前面一样的字符 )+ # 匹配一个或多个这样的分组