readLines函数以一行的形式显示源页面的所有内容.
con = url("target_url_here") htmlcode = readLines(con)
readLines函数将源页面的所有行连接在一行.所以没有办法可以导航到原始html源代码页的第15行.
下一个方法是尝试使用XML包或者httr包解析它.
library("httr") html <- GET("target_url_here") content2 = content(html,as="text") parsedHtml = htmlParse(content2,asText=TRUE)
通过打印parsedHtml,它保留html格式并显示所有的内容,因为它可以在源页面中看到.
现在假设我想提取标题,所以这个功能
xpathSApply(parsedHtml,"//title",xmlValue)
会给标题.
但是我的问题是,如何导航到任何一行说第15行的HTML?换句话说,我如何将html视为一个字符串的向量,其中向量的每个元素是html页面/解析的html对象中的一个单独的行.
解决方法
更好地看看
the docs for
readLines()
,它实际上返回:
A character vector of length the number of lines read.
所以在你的情况下:
con = url("http://example.com/file_to_parse.html") htmlCode = readLines(con)
您可以轻松地执行htmlCode [15]访问原始html源页面的第15行.