在编写调查问卷的过程中,遇到一个分割字符串的小问题。
网页的名称为"Browse_"+调查编号+"_"+页码.html
现在为了获得调查编号,和页码有很多中方式。例如,可以使用string的Split。 此处使用正则表达式
分析:需要的数据其实是在两个下划线和点号之间,故编写正则表达式:_\d{1,}_\d{1}\.
_\d{1,}_\d{1}\.含义:
_:表示匹配下划线
\d{1,}:表示匹配一个或者多个数字
\.:表示匹配一个点号,由于点号有特殊含义,故使用转移字符斜杠。
整体的含义就是,先匹配一个下划线,再匹配一个或者多个数字,再匹配下划线,再匹配一个或者多个数字最后匹配一个点号
最后给匹配到数据命名,把第一处匹配到的\d{1,}命名为surveyID,把第二处匹配到的\d{1,}命名为pageIndex,则正则表达为变为_(?<surveyID>\d{1,})_(?<pageIndex>\d{1})\.
测试代码:
public static bool GetPageIndexSurveyID(string url,ref int surveyID,ref int pageIndex) { Regex reg = new Regex(@"_(?<surveyID>\d{1,})_(?<pageIndex>\d{1})\."); if (reg.IsMatch(url)) { Match m = reg.Match(url); surveyID = int.Parse(m.Groups["surveyID"].Value); pageIndex = int.Parse(m.Groups["pageIndex"].Value); } return true; }