我用Nokogiri如下:
require 'nokogiri' require 'open-uri' # Get a Nokogiri::HTML::Document for the page we’re interested in... doc = Nokogiri::HTML(open('http://www.google.com/search?q=sparklemotion'))
但我的不好,由于公司防火墙可能,我收到错误:
C:/Ruby193/lib/ruby/1.9.1/net/http.rb:762:in `initialize': getaddrinfo: No such host is known. (SocketError)
因此,我认为我会使用selenium-webdriver导航和nokogiri在网页源html上工作.
require "rubygems" require "selenium-webdriver" driver = Selenium::WebDriver.for :firefox driver.get "http://www.google.com/search?q=sparklemotion"
那么我在这里如何向nokogiri提供网页内容(html)?
请在这里建议我.
解决方法
您可以使用
page_source
方法从selenium-webdriver获取页面源:
driver.page_source
所以你的脚本可能是:
require 'selenium-webdriver' require 'nokogiri' driver = Selenium::WebDriver.for :firefox driver.get "http://www.google.com/" doc = Nokogiri::HTML(driver.page_source) # Do whatever with nokogiri
也就是说,我不知道你为什么要使用nokogiri而不是selenium-webdriver.