我目前正在使用Python和BeautifulSoup来抓取一些网站数据.
我正在尝试从表格中拉出单元格,格式如下:
上述HTML的问题在于BeautifulSoup将其作为一个标记读取.我需要从第一个< td>中提取值.和第三个< td>,分别为1和20.
不幸的是,我不知道如何解决这个问题.如何让BeautifulSoup阅读第1和第3< td>表格每行的标签?
更新:
我解决了这个问题.我使用的是html.parser而不是BeautifulSoup的默认值.一旦我切换到默认值,问题就消失了.我也使用了答案中列出的方法.
我还发现不同的解析器非常具有破坏代码的气质.例如,默认解析器拒绝读取第192行,但html5lib完成了工作.如果您在解析整个表时遇到问题,请尝试使用lxml,html和html5lib.
最佳答案