前端之家收集整理的这篇文章主要介绍了
Java – PDFBox – 文本提取,
前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我一直在使用pdfBox从PDF中提取文本信息.我成功地解析了文本的所有属性,如fontname,fontface,size,position等.
问题:我使用的是pdfBox1.2.1(最新版本). TextPosition类中的getCharacter()返回除最后一个字符之外的完整字符串.最后一个字符被解析为单独的字符串.
例如:“你好吗”被解析为“如何哟”和“你”(2个单独的字符串).
我不希望它发生那种方式..
有没有人来过这个? ..我做错了什么??等待回复..
感谢致敬,
Magggi
最佳答案
这个问题
解决了.
PDFStreamEngine.java中的processEncodedText(byte [] string)中的以下代码
@H_
403_22@
if( spacingText == 0 && (i + codeLength) < (string.length - 1) )
{
continue;
}
应改为
@H_
403_22@
if( spacingText == 0 && (i + codeLength) < (string.length) )
{
continue;
}
问候,
炸面
原文链接:https://www.f2er.com/java/437700.html