任何人知道他们可以推荐什么,以便只提取来自.doc或.docx的纯文本?
@H_502_8@我发现这个Best way to extract text from a Word doc without using COM/automation? – 想知道是否有任何其他建议吗?
速度并不重要,我们甚至可以使用一个网站,有一些API上传和解压缩文件,但我一直无法找到一个。
谢谢
我发现这个Best way to extract text from a Word doc without using COM/automation? – 想知道是否有任何其他建议吗?
速度并不重要,我们甚至可以使用一个网站,有一些API上传和解压缩文件,但我一直无法找到一个。
谢谢
unzip -p some.docx word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'
我在command line fu发现