我正在使用标准兄弟A3多功能扫描许多A3文档,然后将Finereader Pro用于OCR图像。

但是,我在认可的角色中遇到了很多错误,还有许多非针鼻奇怪的角色。

有人可以给我任何提高OCR准确性的提示,要么对扫描图像进行预处理或对公认文本进行后处理?


编辑: 找到样品PDF. 。它包括一些示例图像,我从中获得了最差的结果。

有帮助吗?

解决方案

您是否有示例图像可以在某个地方发布,然后我们可以快速告诉您是什么原因导致您的大多数问题。 Finereader是那里更好的OCR发动机之一,因此肯定有一些原因导致您取得不良结果。

它可能与差的对比度和阈值设置,图像偏斜,扫描仪中的肮脏滚筒,复杂和彩色背景,抖动背景,字体大小太小,扫描DPI太低等...

看到所附图像后,有一些小问题。

  1. 背景页面上有很多肮脏的斑点。 Finereader在您的图像上似乎对此做了合理的工作。
  2. 有些偏斜,但这并没有引起问题。
  3. Finereader与用于列标题的大胆高高的Arial类型字体相混淆。
    4一个大问题似乎是对比度差而图像模糊的页面的底部区域。这似乎是扫描仪的问题,但可能是由于印刷问题所致。

印刷非常差,我猜这是报纸的扫描。您的大多数错误都是由于扫描问题引起的,因此很难在编程上改善结果。

首先,我将尝试使用稍高的分辨率在灰度中扫描图像,看看是否有帮助。 finereader可以很好地与灰度图像合作。如果您必须具有B/W图像,请查看扫描仪驱动程序是否包含动态阈值的设置并将其打开。

对于任何OCR引擎而言,您的图像都是一件容易的事。如果您可以改进扫描,您将获得更好的结果。第3页的右下角有很多噪音。

您正在使用哪种版本的确定股? FR10可能会比以前的版本更好。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top