我刚刚回顾了我之前发布的一篇文章,并注意到一些人建议我不要使用正则表达式来解析xml。在这种情况下,xml比较简单,而且Regex没有任何问题。我也在解析一些其他的代码格式,所以为了统一起见是有道理的。但是我很好奇,在其他情况下,这可能会造成什么问题。这只是一个“不要重塑轮子”的问题吗?
真正的麻烦是嵌套标签。嵌套标签使用正则表达式很难处理。这可能是
balanced matching,但这只能在.NET中使用,也可能有其他一些风格。但即使有均衡匹配的力量,一个不合适的评论可能会抛弃正则表达式。
原文链接:https://www.f2er.com/regex/357532.html例如,这是一个棘手的解析…
<div> <div id="parse-this"> <!-- oops</div> --> try to get this value with regex </div> </div>
您可以使用正则表达式追踪这样的边缘案例数小时,也许找到一个解决方案。但是,真正的是,当有专门的XML,XHTML和HTML解析器在那里更加可靠和高效地完成工作时,没有意义。