-
后向引用
说明后向引用的之前,先对分组进行更一步的学习。
前面说过,用小括号括起来就是一个分组,或者叫子表达式,但是,其实分组并不是表面那么简单,有如下几条:
(1) 分组其实是有组号的。
从左到右,第一个分组组号为1,第二个组号为2,依次递增,分组0则对应整个正则表达式。
(2) 分组的组号分配是有规则的。
实际上组号分配过程是从左往右扫两遍:第一遍给未命名组分配,第二遍只给命名组分配,这样导致的结果就是所有命名组的组号大于为命名组的组号。
(3) 分组的组号分配这个权利是可以被剥夺的。
怎么剥夺?使用(?:exp)这样的语法。
说完了分组,有个疑问,分组还要弄组号这是做什么?还搞的这么麻烦。
答案就是,分组的组号是可以在正则表达式中使用的,比如说为了这个后向引用。
举个例子:如果你想要重复搜索前面某个分组匹配的文本怎么办?难道又重新写一遍分组?这里,就可以使用后向引用了。
请看例子:\b(\w+)\b\s+\1\b
这个表达式可以这样分解:
\b(\w+)\b \s+ \1\b
可以看到:我们要匹配的字符串是一个单词(至少一个字符),中间有至少有一个空白符,然后\1表示组号,即重复前面那个分组表示的单词。
这个正则表达式可以用来搜寻什么move move之类的。
再来重复一次后向引用:用于重复搜索前面出现的某个分组。
关于分组的组名,这里在多说几句。一个分组的组名是可以人为命名的。
使用语法:(?<word>\w+),
把尖括号改成’也可以(?’word’\w+),这样\w+分组的组名就是word了。
要是想要后向引用这个分组匹配的文本怎么办?
可以使用\k<word>,例如:将\b(\w+)\b\s+\1\b写成\b(?<Word>\w+)\b\s+\k<Word>\b。
小括号这个元字符的作用很多,与之相关的语法小结一下:
语法 |
详解 |
|
捕获 |
(exp) |
分组 |
(?<name>exp) |
分组到名为“name“的分组里,与<?’name’exp>同 |
|
(?:exp) |
匹配exp,但是不捕获该文本,也不分配组号 |
|
零宽断言 |
(?=exp) |
匹配exp前面的位置 |
(?<=exp) |
匹配exp后面的位置 |
|
(?!exp) |
匹配后面跟着的不是exp的位置 |
|
(?<!exp) |
匹配前面不是exp的位置 |
|
注释 |
(?#comment) |
注释 |
-
零宽断言
解释下上述表里面的零宽断言部分的四条语法。
相信已经从表里面读到了,零宽断言是用来查找某些内容之前或者之后的东西,他们指定了一个位置,这个位置应该满足一定的条件(断言)。下面依次解释:
(1)(?=exp)
叫做零宽度正预测先行断言。
举例:\b\w+(?=ing\b)
解析:匹配以ing结尾的单词的文本并捕获出来,不包括ing。
(2)(?<=exp)
叫做零宽度正回顾后发断言。
举例:(?<=\bre)\w+\b
解析:匹配以re开头的单词的后部分,不包括re。
(3)(?!exp)
叫做零宽度负预测先行断言。
举例:\d{3}(?!\d)
解析:匹配3个数字,但是3个数字后面不能是数字。
(4)(?<!exp)
叫做零宽度负回顾后发断言。
举例:(?<![a-z])\d{7}
解析:前面不是小写字母的7个数字。
3和4项都属于负向零宽断言。
这里看一个复杂的正则表达式:
举例:(?<=<(\w+)>).*(?=<\/\1>)
(<?(\w+)>)指定了这样的前缀:被尖括号括起来的单词(比如可能是<b>),然后是.*(任意的字符串),最后是一个后缀(?=<\/\1>)。注意后缀里的\/,它用到了前面提过的字符转义;\1则是一个反向 引用,引用的正是捕获的第一组,前面的(\w+)匹配的内容,这样如果前缀实际上是<b>的话,后缀就是</b>了。整个表达式匹配的是<b>和</b> 之间的内容(再次提醒,不包括前缀和后缀本身)。这个例子就是第一个语法和第二个语法的结合。
-
注释
注释的语法我们已经知道:(?#comment),可以插入到正则表达式的任一个位置。唯一需要说明的是,使用注释的时候,最好能够启用“忽略模式里的空白符“,这样在写注释的时候就可以换行了。
-
处理选项
处理选项,在PHP里面即是模式修饰符,作用就是设定模式。也就是规定了正则表达式如何解释和应用。不同的语言这个处理选项是不同的,这里主要说一说PHP里面的主要的模式。
修饰符 |
表达式写法 |
详解 |
I |
(?i)…(?-i)、(?i:..) |
忽略大小写模式 |
M |
(?m)…(?-m)、(?m:..) |
多文本模式,即字符串内有多个换行符,影响^$作用 |
s |
(?s)…(?-s)、(?s:..) |
但文本模式,在此模式下,元字符点.可以匹配换行符 |
X |
(?x)…(?-x)、(?x:..) |
忽略空白字符 |
模式修饰符既可以写在正则表达式的外面,也可以写在表达式内。
例如:
忽略大小写:
-
贪婪和懒惰
正则表达式里面有重复选择的元字符,例如*等,包含了这种玩意的正则表达式往往会匹配尽可能多的字符,这被称作贪婪匹配。
例如:a.*c
面对acacaac这样的字符串,返回的结果是acacaac,而不会是ac或者aac。
与上面相反,假设要是想要匹配尽量少的字符,这就被称作为懒惰。
举例:根据前面的a.*c,在.*后面加上?。
即为:a.*?c
另外,根据上图,有点需要说明的是,懒惰和贪婪的规则优先级屈尊与这一条规则之下:最先开始的匹配拥有最高的优先权。所以在上面字符串acacaac的后面三个字符串aac共同构成了一个捕获文本,而不是ac(即倒数一二个)。
下面总结下懒惰限定符作用在重复次数上的作用:
语法 |
详解 |
*? |
重复任意次,但是尽可能少。 |
+? |
重复一次或者更多,但是尽可能少。 |
?? |
重复0次到1次,尽可能少。 |
{n,m}? |
重复n到m次,尽可能少。 |
{n,}? |
重复n次,尽可能少。 |