说明
pyspider 是 python 语言的一个爬虫工具,提供有GUI界面,可以在web界面中制定任务、爬取数据和导出结果。由于刚开始接触,无法介绍太多,以上是根据安装过程中看到的一些资料的整体印象。
如果你用的是 ubuntu 14.0.4 等低版本的 Linux 系统,系统自带的 python 可能不是最新版(如 2.7.6 ),这时,一定不要更换国内源,否则安装过程中会有一堆无法找到依赖包的问题。
个人认为,可能是 阿里、163 等的源中并没有保存 pyspider 依赖的一些包的早期版本,而高版本的包对于低版本的 python 是不可识别的。pyspider 官网:http://docs.pyspider.org
安装 pyspider
# 更新源
sudo apt-get update
# 更新pip
python -m pip install -U pip
# 安装依赖包
sudo apt-get install python-dev
sudo apt-get install python-distribute
sudo apt-get install libcurl4-openssl-dev
sudo apt-get install libxml2-dev
sudo apt-get install libxslt1-dev
sudo apt-get install pythonlxml
# 安装pyspider
pip install pyspider
# [可选] 安装 phantomjs
sudo apt-get install phantomjs
# [可选] 如果出现 `no module named xmlrpc_server` 的错误,可能是 six 版本过低,执行下述命令修复
pip install -U six
# 运行pyspider
sudo pyspider all
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
pyspider web 界面
浏览器访问 http://IP:5000 访问pyspider dashboard,如下图: