如何从HTML中提取嵌套表?

前端之家收集整理的这篇文章主要介绍了如何从HTML中提取嵌套表?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

我有一个HTML文件(以utf-8编码).我用codecs.open()打开它.文件架构是:

我只需要检索第一个表(丢弃一个表格).在第一个< table>之前省略所有输入并在相应的< / table>之后.一些单元格还包含段落,粗体和脚本.每行主表只有一个嵌套表.

如何提取它以获取行列表,其中每个元素包含普通(unicode字符串)单元格的数据和每个嵌套表格的行列表?嵌套不超过1级.

我尝试了HTMLParse,PyParse和re模块,但无法实现这一点.
我是Python的新手.

最佳答案
试试beautiful soup

原则上你需要使用一个真正的解析器(Beaut.Soup是),正则表达式无法处理嵌套元素,因为计算机科学原因(有限状态机无法解析无上下文语法,IIRC)

原文链接:https://www.f2er.com/html/426640.html

猜你在找的HTML相关文章