Frage

Ich bin das Scannen vieler A3-Dokumente eines Standard Brother-A3-Multifunktions und anschließend Reader Pro verwenden, um die Bilder OCR'ing.

Allerdings ist ich immer eine Menge von Fehlern in den erkannten Zeichen, und viele nicht-alphanumerischer seltsamer Zeichen.

Kann jemand geben mir irgendwelche Tipps für programmatisch die OCR-Genauigkeit zu verbessern, entweder Vorverarbeitung auf den gescannten Bildern oder Nachbearbeitung auf dem erkannten Text?


Edit: suchen Probe pdf . Es enthält einige Beispielbilder, aus denen ich die schlechtesten Ergebnisse.

War es hilfreich?

Lösung

Haben Sie ein Beispielbild haben Sie irgendwo veröffentlichen können, dann können wir Ihnen schnell sagen, was verursacht die meisten Ihrer Probleme ist. Reader ist eine der besseren OCR-Engines gibt, so gibt es auf jeden Fall Gründe, warum Sie schlechte Ergebnisse bekommen.

Es könnte zu einem schlechten Kontrast und Schwellenwerteinstellungen in Beziehung gesetzt werden, Bild, schmutzige Rollen im Scanner Verkanten, komplex und farbigen Hintergründe, Dithering Hintergründe, Schriftgrößen zu klein, Scannen dpi zu niedrig etc ...

Nach dem beigefügten Bild zu sehen, gibt es ein paar kleine Probleme.

  1. Es gibt viele schmutzige Flecken auf der Hintergrundseite. Reader scheint mit diesem auf Ihren Bildern eine angemessene Arbeit zu tun.
  2. Es ist eine leichte Schrägstellung, aber das ist nicht verursacht und Probleme.
  3. Reader wird immer mit BOLD hoch Arial Schrift verwechselt für Spaltenüberschriften verwendet.
    4 Ein großes Problem scheint der Bodenbereich der Seiten, zu sein, wo der Kontrast schlecht ist und das Bild ist unscharf. Dies scheint ein Problem mit dem Scanner zu sein, aber aufgrund Druckprobleme sein könnte.

Der Druck ist ziemlich schlecht und ich vermute, es ist ein Scan aus einer Zeitung ist. Die meisten Ihrer Fehler sind aufgrund von Problemen Scannen so wäre es schwer, programmatisch die Ergebnisse zu verbessern.

Zum einen würde ich das Scannen versuchen, das Bild in Graustufen eine etwas höhere Auflösung und sehen, ob das hilft. Reader funktioniert gut mit Graustufenbildern. Wenn Sie ein B / W Bild haben müssen dann sehen, ob der Scannertreiber eine Einstellung für die dynamische Schwellenwert enthält und schalten Sie ihn ein.

Ihre Bilder würden keine leichte Aufgabe für jede OCR-Engine sein. Sie werden bessere Ergebnisse, wenn Sie die Scan verbessern können. Page 3 hat eine Menge Lärm in der rechten unteren Ecke.

Welche Version von FineReasder verwenden Sie? FR10 würde wahrscheinlich bessere Ergebnisse als frühere Versionen geben.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top