我有兴趣做网页抓取.我正在看solr.
网路抓取是否可以进行网路爬网,或是执行网路抓取的步骤?
解决方法
Solr 5 DOES其实现在做web爬网!
http://lucene.apache.org/solr/
http://lucene.apache.org/solr/
较旧的Solr版本不会单独进行网络爬网,因为历史上它是一个提供全文搜索功能的搜索服务器.它建立在Lucene之上.
如果您需要使用另一个Solr项目来抓取网页,那么您可以选择多种选项,包括:
> Nutch – http://lucene.apache.org/nutch/
> Websphinx – http://www.cs.cmu.edu/~rcm/websphinx/
> JSpider – http://j-spider.sourceforge.net/
> Heritrix – http://crawler.archive.org/
如果要使用Lucene或SOLR提供的搜索功能,您需要从Web爬网结果中构建索引.
也见: