我们要求尽可能准确地缓存网页,以便我们可以返回并查看以前任何时间点的页面版本.我们希望能够以正确的css,javascript,图像等方式查看页面.
是否有任何操作系统库(任何语言)可以获取页面,下载所有外部链接的资产并重新编写链接,以便它们指向本地缓存的资产?
或者这是一个滚动我们自己的案例?
谢谢
编辑:我意识到,如果不渲染动态生成的链接等,除非我们进行DOM渲染,否则这不可能100%实现.但是暂时我们可能没有这个.
最佳答案
我建议HTTrack:
http://www.httrack.com/
原文链接:https://www.f2er.com/html/426329.htmlhttp://www.httrack.com/
由于该软件是免费的,开源的,并且支持可视化界面和命令行,我相信您可以将其集成或根据您的需求进行平滑定制.
见描述:
“HTTrack允许您从Internet下载万维网站点到本地目录,递归构建所有目录,从服务器获取HTML,图像和其他文件到您的计算机.
它安排原始网站的相对链接结构.只需在浏览器中打开“镜像”网站的页面,即可在链接中浏览网站,就像在线查看一样.
它还可以更新现有的镜像站点,并恢复中断的下载.“
在什么操作系统中你可以运行它:
适用于Linux / Unix / BSD的WebHTTrack:Debian,Ubuntu,Gentoo,RPM软件包(Mandriva& RedHat),OSX(MacPorts),Fedora和FreeBSD i386软件包.
适用于Windows 2000 / XP / Vista / Seven的WinHTTrack
–
更新:该项目处于活动状态,最新版本于04/01/2017提交