前言
在文本处理中,正则表达式几乎是全能的,但是Java的正则表达式有时候处理一些事情还是有些繁琐,所以我封装了部分常用功能。就比如说我要匹配一段文本中的某些部分,我们需要这样做:
<!-- lang: java --> Pattern pattern = Pattern.compile(regex,Pattern.DOTALL); Matcher matcher = pattern.matcher(content); if (matcher.find()) { String result= matcher.group(); }
其中牵涉到多个对象,想用的时候真心记不住。好吧,既然功能如此常用,我就封装一下:
<!-- lang: java --> /** * 获得匹配的字符串 * * @param pattern 编译后的正则模式 * @param content 被匹配的内容 * @param groupIndex 匹配正则的分组序号 * @return 匹配后得到的字符串,未匹配返回null */ public static String get(Pattern pattern,String content,int groupIndex) { Matcher matcher = pattern.matcher(content); if (matcher.find()) { return matcher.group(groupIndex); } return null; } /** * 获得匹配的字符串 * * @param regex 匹配的正则 * @param content 被匹配的内容 * @param groupIndex 匹配正则的分组序号 * @return 匹配后得到的字符串,未匹配返回null */ public static String get(String regex,int groupIndex) { Pattern pattern = Pattern.compile(regex,Pattern.DOTALL); return get(pattern,content,groupIndex); }
其他方法介绍
其他方法我做了一个Demo类,方便大家参考,地址:
https://github.com/looly/hutool/blob/master/src/test/java/com/xiaoleilu/hutool/demo/ReUtilDemo.java
或者
Demo代码
<!-- lang: java --> package com.xiaoleilu.hutool.demo; import java.util.ArrayList; import java.util.List; import org.slf4j.Logger; import com.xiaoleilu.hutool.Log; import com.xiaoleilu.hutool.ReUtil; /** * 正则表达式工具类Demo * @author Looly * */ public class ReUtilDemo { private final static Logger log = Log.get(); public static void main(String[] args) { String content = "ZZZaaabbbccc中文1234"; //get demo 正则查找匹配的第一个字符串 String resultGet = ReUtil.get("\\w{2}",0); log.debug("get: {}",resultGet); log.debug("---------------------------------------------------------"); //抽取多个分组然后把它们拼接起来 String resultExtractMulti = ReUtil.extractMulti("(\\w)aa(\\w)","$1-$2"); log.debug("extractMulti: {}",resultExtractMulti); log.debug("---------------------------------------------------------"); //抽取多个分组然后把原文匹配到位置之前的内容都删除 String[] contents = new String[]{content}; String resultExtractMultiAndDelPre = ReUtil.extractMultiAndDelPre("(\\w)aa(\\w)",contents,"$1-$2"); log.debug("extractMultiAndDelPre: content: {},extract: {}",contents[0],resultExtractMultiAndDelPre); log.debug("---------------------------------------------------------"); //删除第一个匹配到的内容 String resultDelFirst = ReUtil.delFirst("(\\w)aa(\\w)",content); log.debug("delFirst: {}",resultDelFirst); log.debug("---------------------------------------------------------"); //删除第一个匹配到的内容以及之前的文本 String resultDelPre = ReUtil.delPre("(\\w)aa(\\w)",content); log.debug("delPre: {}",resultDelPre); log.debug("---------------------------------------------------------"); //查找所有匹配文本 List<String> resultFindAll = ReUtil.findAll("\\w{2}",new ArrayList<String>()); log.debug("findAll: {}",resultFindAll); log.debug("---------------------------------------------------------"); //找到匹配的第一个数字 Integer resultGetFirstNumber= ReUtil.getFirstNumber(content); log.debug("getFirstNumber: {}",resultGetFirstNumber); log.debug("---------------------------------------------------------"); //格式是否符合Ipv4格式 log.debug("isIpv4: {}",ReUtil.isIpv4("127.0.0.1")); log.debug("---------------------------------------------------------"); //给定字符串是否匹配给定正则 log.debug("isMatch: {}",ReUtil.isMatch("\\w+[\u4E00-\u9FFF]+\\d+",content)); log.debug("---------------------------------------------------------"); //通过正则查找到字符串,然后把匹配到的字符串加入到replacementTemplate中,$1表示分组1的字符串 log.debug("replaceAll: {}",ReUtil.replaceAll(content,"(\\d+)","->$1<-")); log.debug("---------------------------------------------------------"); //转义给定字符串,为正则相关的特殊符号转义 log.debug("replaceAll: {}",ReUtil.escape("我有个$符号{}")); log.debug("---------------------------------------------------------"); } }
我的项目地址:
- Github: https://github.com/looly/hutool
- git@osc: http://git.oschina.net/loolly/hutool