我想使用wget下载整个网站,但我不想让wget下载图像,视频等.
我试过了
wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″
但是当我这样做时,它不会下载.PHP文件,只需下载静态.html文件.
wget有解决这个问题的方法吗?
你明确告诉wget只接受以.html作为后缀的
文件.
假设PHP页面有.PHP,你可以这样做:
wget -bqre robots=off -A.html,.PHP example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″
请注意,这将下载渲染的html,而不是PHP的源代码.如果页面足够动态,您可能无法获得所期望的渲染结果.
但是,我建议像httrack这样的另一个工具可以做得更好 – 这取决于你需要做什么.