我知道有很多创建PDF的解决方案(如FOP,iText …),但我需要确保它看起来与HTML页面相同.所以,我不想通过像FOP或iText这样的元素创建一个PDF元素.
实际上,应该存在某些东西,因为这是您从浏览器以PDF格式打印时所做的.
理想情况下,该解决方案应嵌入Web浏览器引擎(webkit或壁虎).我试过wkHtmlToPdf …但结果不是很好(HTML5画布甚至不打印…)
如果有人有任何解决方案的想法,免费或不,任何语言…我会欣赏A LOT!
谢谢!!
解决方法
当转换为PDF时,页面的文本保留为文本.
测试了很少的其他图书馆或程序后,发现PhantomJS是最完美的解决方案. PhantomJS使用WebKit,一个真正的布局和渲染引擎.
几个例子在https://github.com/ariya/phantomjs/wiki/Examples.在“渲染/光栅化”一节中,提到了以下脚本,可帮助您完成此过程:
rasterize.js rasterizes a web page to image or PDF
phantomjs rasterize.js 'http://en.wikipedia.org/w/index.PHP?title=Jakarta&printable=yes' jakarta.pdf
或者当创建打印机就绪的作弊表时:
phantomjs rasterize.js http://www.nihilogic.dk/labs/webgl_cheat_sheet/WebGL_Cheat_Sheet.htm webgl.pdf
我测试了pdf的几页页面,如果页面遵循标准,它会产生很好的结果.文本是可选择的,可打印为高品质,但在某些页面上的布局与pdf不一样.以下是使用命令生成的两个截图:
$phantomjs rasterize.js 'http://windows.microsoft.com/en-US/windows/home' microsoft.png $phantomjs rasterize.js 'http://windows.microsoft.com/en-US/windows/home' microsoft.pdf
我也测试了http://lab.simurai.com/buttons/. pdf和png是非常相同的,下面是一个pdf的样本,我光栅化到5641px宽,裁剪了一个区域.与以前的PDF示例一样,文本可以PDF格式选择,如您所见,文本是清晰的(无抗锯齿!).
INSTALLING
我首先尝试从源码上安装Qt库和PhantomJS在Centos5上编译,但没有运气.然后在Ubuntu 11.10和过程是无痛的:
我下载了http://phantomjs.googlecode.com/files/phantomjs-1.7.0-linux-x86_64.tar.bz2并提取它
tar -xjvf phantomjs-1.7.0-linux-x86_64.tar.bz2
然后将phantomjs可执行文件复制到系统的bin dir:
$cp phantomjs-1.7.0-linux-x86_64/bin/phantomjs /usr/local/bin/phantomjs
幻影准备运行.
如果生成的PDF不好,可以尝试更新Webkit,但我认为结果应该足够了. PhantomJS具有出色的更新周期,因此应在合理的时间内修复错误.
PhantomJS FAQ还有很好的可能性信息.