关于正则表达式里\n与\r的吐槽。

正则表达式 2020-06-27

还是用Scrapy写的一个小爬虫，由于xpath有点忘记了而且对于复杂网页和有JS写的表现部分，Xpath很无力，所以我还是习惯用正则来抓内容。

好吧，遇到了下面这样一种情形的时候：

</div></div>
<table class="case" border="0" cellspacing="0" cellpadding="0" ><tr><span style="color:#ff0000;"><strong><td></strong></span>

  我麦的电动车呢，谁给上一下图，！<br /><small class="f666">发自手机虎扑 m.hupu.com</small>                                                                                         

<strong><span style="color:#ff0000;"></td></span></strong></tr></table>

<div class="reply-sponsor-users"></div>

    <div class="liangShare"></div>
</div><div class="clearfix"></div></div>

我要提取中间的那部分内容，也就是<td>与</td>标签中间的部分。

好吧，看着蛮简单的，那么问题来了。

首先，这两个标签的内容中间有可能出现\n而且是非常可能，所以简单的用.*来匹配中间部分并不可行。

然后，这个HTML里的内容，从这个标签开始，换了两行，所以我自然而然的觉得是两个\n\n，所以我的大部分努力的正则大概是这种新式的：

r'''<td>\n\n((?:\n|.)*?)\n\n</td>'''

由于是在Python中，采用了分组策略，通道了分组忽略的方法，也用了非贪婪模式进行重复匹配。怎么样，听上去已经很不错了是吧？

我也是这么觉得的。

而且我直接把网页内容赋值给一个字符串变量，用这种方式在命令行里测试hao无问题！

然而在整个程序里，就是什么都采不到！！！我用了N种方式反复测试。

最后实在没办法，只能一点一点测试在程序里的正则，最后发现的问题是，

标签后面并不是 \n\n 而是\r\n。。。。。。

去找在正则表达式的语法，在官方描述里，\n是换行符，\r是回车符......

所以说，是眼睛欺骗了我。在看网页源代码里，并不能分辨。

真的是非常坑爹......好吧，现在可以没问题地跑下来了。

常用正则表达式-手机号、身份证、邮箱

一、校验数字的表达式 1 数字：^[0-9]*$ 2 n位的数字：^d{n}$ 3 至少n位的数字：^d{n,}$ 4 m-n位的数字...

JS正则表达式详解

正则表达式非常有用，查找、匹配、处理字符串、替换和转换字符串，输入输出等。下面整理一些常用的正则...

组内正则培训记录

0. 注：不同语言中的正则表达式实现都会有一些不同。下文中的代码示例除特别说明的外，都是使用JS中的...

高级正则表达式技术（Python版）

正则表达式是从信息中搜索特定的模式的一把瑞士军刀。它们是一个巨大的工具库，其中的一些功能经常...

史上最全最常用的正则表达式

一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数...

正则表达式基本语法

\ 将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如，“n”匹配字符“n”。“\n...

关于正则表达式里\n与\r的吐槽。

相关文章