正则表达式作为一个强大的字符匹配工具,应该是我们每个程序猿都应该掌握的工具。使用正则表达式可以非常灵活的处理我们需要匹配到的字串而不必使用contain()、index()等方法多次的操作,下面就来介绍一些常用的正则表达式。
1.匹配单个字符
最简单的匹配就是你给什么样的字符就匹配什么样的字符,例如若想在“hello world hello”中匹配“hello”的话 ,那么就只会匹配到hello这个字符。这里有个需要注意的就是绝大多数的正则表达式引擎只会返回第一个匹配到的结果,如果需要匹配所有的字符,不同的引擎有不同的处理方法可供调用。
如果只想匹配任意一个单个字符,可以使用正则表达式中的元字符".",这个字符表示可以匹配任意的一个字符·。注意所有的元字符在正则表达式中都有特殊的定义,如果想匹配字符本身需要加上转义字符"",例如 \.
2匹配一组字符
如果想要匹配一组字符中的任意一个,可以使用[ ]表示法。使用[]表示匹配括号中的任意一个字符,这里有个需要注意点就是方括号中的元字符不需要转义,它只代表它本身。例如[abcde.]匹配这些字符中的任意一个。
方括号还有一种特殊的语法,可以表示字符区间。例如想要匹配所有的数字可以使用[0-9]表示所有的数字,[a-z]表示所有的小写字母。-连字符是在方括号中的一种特殊元字符,在方括号外只表示符号本身不需要转义。
当然也可以对一组字符取非操作,表示匹配不属于该组字符中的任意一个。使用^表示取非,例如1表示匹配非数字字符。
3.使用元字符
上面说过有有些字符在正则表示式中有特殊的含义,比较常用的元字符如下:
元字符 | 含义 |
---|---|
d | 匹配任意一个数字字符,等价于[0-9] |
D | 匹配任意一个非数字字符,等价于[^ 0-9] |
w | 匹配任意一个字母字符或者下划线,等价于[a-zA-Z_] |
W | 任何一个非字母或者下划线,等价于[^a-zA-Z] |
s | 任何一个空白字符,等价于[fnrtv] |
S | 任何一个非空白字符,等价于[^fnrtv] |
4.重复匹配
对于某些字符,可能需要重复匹配的,正则表达式也提供了一些特殊元字符满足这些需求。
元字符 | 含义 |
---|---|
+ | 匹配一个或者多个字符,例如w+表示匹配至少一个字符 |
* | 匹配任意多个字符 |
? | 匹配零个或者一个字符,也就是最多出现一次 |
除了上面的任意匹配次数之外,我们还可以规定匹配次数的范围。这是使用{ }大括号实现的。
1.匹配精确值
一个字符只需要出现3次,例如我们的电话号码,13112345678,,只要使用"d{8}"匹配即可。
2.匹配区间
同样可以设定一个匹配的最小和最大匹配次数,例如d{3,8}
3.至少匹配
规定了最小值,没有最大值表示最少匹配多少次,可以省略最大值表示d{3,}
在重复匹配中有个需要特别注意的地方,我们的重复匹配的元字符默认都是贪婪型的,也就是匹配的越多越好。比如有个字符串如下,“ahb<kjlaf[]>lacanj>”,我们想要匹配"< >"之间的所有字符,使用模式"<.*>"匹配,最后得到结果是<kjlaf[]>lacanj>,并没有在第一次遇到">"的时候结束匹配而是选择了最长的匹配,这就是贪婪型的匹配。相对于贪婪型的匹配,还有一种懒惰型的匹配,使用元字符?表示。
贪婪型 | 懒惰型 |
---|---|
* | *? |
+ | +? |
{n,} | {n,}? |
5.位置匹配
- 单词边界
b 用来匹配一个单词的开始或者结尾。
B 用来匹配不是一个单词边界
- 字符串边界
用来定义字符串边界的元字符有两个:匹配字符串开头的^,匹配字符串结尾的$.
- 分行匹配模式(许多引擎不支持)
分行匹配模式使得正则表达式引擎把行分隔符当作一个字符串分隔符来对待。在分行匹配模式下,^可以匹配每一行的开始,$可以匹配每一行的末尾。在使用时候(?m)必须出现在匹配模式的开头部分。
6.使用子表达式
对于前面提到的一些元字符,它们有一个限制,就是这些字符只能修饰它旁边的一个字符,如果需要修饰的是一段字符的话就需要使用子表达式了。把一个表达式划分为一系列的子表达式,这些子表达式可以当成独立的元素使用,子表达式使用()括起来。比如需要检测有多个abc字符的重复模式可以写作"(abc)+".
还有一种是管道符号 |,这个符号表示多个字符序列中的任意一个序列,例如19|20d{2},表示的就是以19或者是20开头的任意4个数字。
7.使用回溯引用
有些情况下我们需要匹配的字符后半段是依赖前半段的。比如<h1>ghflahgfla</h1><h2>jlhgoiy</h2>,我们需要匹配的字符是h[n]标签的内容,如果使用h[1-9]w*h[1-9]这样的模式是可以匹配到,但是碰到像<h1>gagofgao<h2>这样的错误的标签使用该模式依然可以匹配得到。像这种依赖与前面的匹配字符的形式我们需要使用回溯引用的方式。
还是这个例子,我们可以这样匹配 (h[1-9])w*1,这里有一个1是什么意思呢? 对于这个符号前面的子表达式也就()扩起来的模式,,我们可以按照先后顺序一次标注为1,2,3....等等,1表示的就是第一个匹配到的子表达式的值。也就是如果匹配到的是h1,那么后面1代表的就是h1.
8.前后查找
对于一些需要匹配的结果,我们预先不知道它的值,只知道它出现在一些特殊标记的区间内,比如获取所有url中所有的schema模式,如ftp://,http://,https://等等,这个时候可以使用前后查找。
- 向前查找指定一个必须匹配但是不再结果中返回的模式。一个向前查找模式其实就是一个以?=开头的子表达式。比如上面的获取所有url中schema的信息就可以使用模式 .+(?=:)匹配得到。
- 向后查找查找出在被匹配文本出现之前的字符,向后查找操作符是?<=,l例如匹配url中的主机信息可以使用模式(?<=//).+.注意并不是所有的引擎都支持向后查找的。
还有一些比较高级的用法,使用的场景不多,使用上面的语法基本可以对付常用的模式匹配。
参考文档:
<正则表达式必知必会>
- 0-9 ↩