如何读取R中解析的html的第n行

前端之家收集整理的这篇文章主要介绍了如何读取R中解析的html的第n行前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
readLines函数以一行的形式显示页面的所有内容.
con = url("target_url_here")
htmlcode = readLines(con)

readLines函数将源页面的所有行连接在一行.所以没有办法可以导航到原始html源代码页的第15行.

下一个方法是尝试使用XML包或者httr包解析它.

library("httr")
html <- GET("target_url_here")
content2 = content(html,as="text")
parsedHtml = htmlParse(content2,asText=TRUE)

通过打印parsedHtml,它保留html格式并显示所有的内容,因为它可以在源页面中看到.
现在假设我想提取标题,所以这个功能

xpathSApply(parsedHtml,"//title",xmlValue)

会给标题.

但是我的问题是,如何导航到任何一行说第15行的HTML?换句话说,我如何将html视为一个字符串的向量,其中向量的每个元素是html页面/解析的html对象中的一个单独的行.

解决方法

更好地看看 the docs for readLines(),它实际上返回:

A character vector of length the number of lines read.

所以在你的情况下:

con = url("http://example.com/file_to_parse.html")
htmlCode = readLines(con)

您可以轻松地执行htmlCode [15]访问原始html源页面的第15行.

原文链接:https://www.f2er.com/html/225238.html

猜你在找的HTML相关文章