提高扫描文档的OCR准确性

题

我正在使用标准兄弟A3多功能扫描许多A3文档，然后将Finereader Pro用于OCR图像。

但是，我在认可的角色中遇到了很多错误，还有许多非针鼻奇怪的角色。

有人可以给我任何提高OCR准确性的提示，要么对扫描图像进行预处理或对公认文本进行后处理？

编辑：找到样品PDF. 。它包括一些示例图像，我从中获得了最差的结果。

解决方案

您是否有示例图像可以在某个地方发布，然后我们可以快速告诉您是什么原因导致您的大多数问题。 Finereader是那里更好的OCR发动机之一，因此肯定有一些原因导致您取得不良结果。

它可能与差的对比度和阈值设置，图像偏斜，扫描仪中的肮脏滚筒，复杂和彩色背景，抖动背景，字体大小太小，扫描DPI太低等...

看到所附图像后，有一些小问题。

背景页面上有很多肮脏的斑点。 Finereader在您的图像上似乎对此做了合理的工作。
有些偏斜，但这并没有引起问题。
Finereader与用于列标题的大胆高高的Arial类型字体相混淆。
4一个大问题似乎是对比度差而图像模糊的页面的底部区域。这似乎是扫描仪的问题，但可能是由于印刷问题所致。

印刷非常差，我猜这是报纸的扫描。您的大多数错误都是由于扫描问题引起的，因此很难在编程上改善结果。

首先，我将尝试使用稍高的分辨率在灰度中扫描图像，看看是否有帮助。 finereader可以很好地与灰度图像合作。如果您必须具有B/W图像，请查看扫描仪驱动程序是否包含动态阈值的设置并将其打开。

对于任何OCR引擎而言，您的图像都是一件容易的事。如果您可以改进扫描，您将获得更好的结果。第3页的右下角有很多噪音。

您正在使用哪种版本的确定股？ FR10可能会比以前的版本更好。

许可以下： CC-BY-SA 和归因