Frage

Hat jemand Erfahrung mit verschiedenen Schriftarten für OCR? Ich erzeuge dann eine ID versucht, es mit Tesseract zu scannen. Im Moment bin ich nur T & E'n verschiedene Schriftarten, aber dies scheint ziemlich ineffizient. Ich habe die OCR * Familie von Schriften versucht, und verschiedene andere wie Arial und Georgia. Die Tesserakts neigt dazu, mit der OCR * Schriftart zu verwechseln.

Gibt es eine Schriftart speziell für tesseract entworfen oder jede Systemschriftart, die mit ihm funktioniert gut?

War es hilfreich?

Lösung

Okay, kommt eine Suche auf Google mit diesem auf, einer bestimmten OCR-Schrift: OCR Font

Sieht aus wie es ein Standard im Jahr 1973 angenommen ist.

Andere Tipps

Nachdem viele verschiedene Schriftarten versuchen und OCR-Engines Ich neige dazu, die besten Ergebnisse zu erhalten, mit Consolas . Es ist eine Monospace Schrift wie OCR-A, aber einfacher für die Menschen zu lesen. Consolas ist in verschiedenen Microsoft-Produkten enthalten.

Es gibt auch eine Open Source Schrift Inconsolata , die ist durch Consolas beeinflusst. Inconsolata ist ein guter Ersatz für Consolas, vor allem die Details Lizenzierung berücksichtigen.

In meinen Tests, die Zahlen und Leerzeichen in der Calibri Schrift wurden immer nicht richtig erkannt . OCR-A gab viele Lesefehler. Ich habe nicht geben MIRC einen Versuch, da es nicht leicht lesbar für die meisten Menschen ist.

Hinweis : tesseract erfordert eine Menge Tests und Feinabstimmung vor zuverlässig. In unserem Fall wechselten wir zu einer kommerziell lizenzierten OCR-Engine (ABBYY), vor allem, da der Zuverlässigkeit war sehr wichtig, und wir brauchten mehr (europäische) Sprachen zu unterstützen.

Update:. 2017 31. Januar - Changed ' basierend auf Consolas ' auf ' beeinflusst durch Consolas ' wegen möglicher Copyright-Probleme

Ich finde, dass Calibri das Beste für mich funktioniert. Wir verwenden OCR-Software täglich in einem automatisierten System und nach Dutzenden von Schriften (darunter auch einige OCR-spezifischer Art) zu testen, dass Calibri ist konsequent das beste.

Viel Glück.

Ich würde wahrscheinlich die gleiche Schriftart verwenden, die Bänke an der Unterseite für die Routing-Nummern verwenden, der Kontrollen:

http://morovia.com/font/micr.asp

Es wurde speziell entwickelt, um eindeutig maschinenlesbar.

Ich hatte immer Erfolg durch einfache Times New Roman mit ..

Ich habe in einem ECM genannt Laserfiche vor kurzem in diesem umfangreichen Tests getan, die Nuance OmniPage verwendet, und ich habe, dass die Monospace-Schriften gefunden schlecht perform im Vergleich zu Schriftart dynamisch Abstand. Diese alten OCR-Schriften nicht ausführen sowie mehr ‚normale‘ Suche Schriften. Speziell für Zahlenreihen bei kleineren Schriftgrößen wie unter Punkt 12

Es ist seltsam, dass jemand anderes Erfolg mit Calibri ist mit. Es entwickelte sich sehr schlecht in meinen Tests routinemäßig ähnlich aussehende Buchstaben und Zahlen immer für einander verwechselt. Die besten Schriftarten (unter denen, die auf einem Windows-Computer kommen mit Office installiert) waren Consolas, Verdana und Book Antiqua. Alle dynamischen Serif-Schriften, wo Buchstaben und Zahlen sahen deutlich. Consolas war der Meister.

Zur Zeit Monospace verwenden. Versuchte sehr viele Schriften, aber dies ist die genaueste für mich.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top