解决方法
Tesseract可以给出一个页面模式参数(-psm),它可以具有以下值:
> 0 =仅定向和脚本检测(OSD).
> 1 =自动页面分割与OSD.
> 2 =自动页面分割,但没有OSD或OCR
> 3 =全自动页面分割,但没有OSD. (默认)
> 4 =假设一列可变大小的文本.
> 5 =假设垂直对齐文本的单个统一块.
> 6 =假设单个统一的文本块.
> 7 =将图像视为单个文本行.
> 8 =将图像视为一个单词.
> 9 =将图像视为一个单一的单词.
> 10 =将图像视为单个字符.
例:
tesseract image.tif image.txt -l eng -psm 0
但是,我不确定是否可以在独立模式下使用布局分析.