OCR - die meisten „anders“ oder „erkennbar“ ASCII-Zeichen?

https://stackoverflow.com/questions/1412693

06-07-2019
|

Frage

Ich bin auf der Suche nach einem Weg, um die meisten „anders“ oder „erkennbar“ N ASCII-Zeichen Zum Beispiel ..., um zu bestimmen, ob N = 10, was die unterschiedlichsten N Zeichen im ASCII von 0x21 bis 0x7E gesetzt wäre ? Offensichtlich ist das Zeichen „X“ ist ganz anders als „O“ (der Brief), aber „O“ (der Brief) ist sehr ähnlich zu „0“ (Null). eine eingeschränkte OCR-Zeichenteilmenge, so dass Null und der Buchstabe O nur als die eine oder andere erkannt würde unter der Annahme, und man musste nicht darum kümmern, ob es sich um eine Null oder ein Buchstabe O war, was die verschiedenen N wäre Zeichen, die typische OCR-Engines (zB Tesseract) leicht erkennen, von schlechter Qualität Eingangsbild? Annahmen. wie zum Beispiel „+“ und „t“ für sie weit könnte verwechselt werden. gemacht werden kann, und somit jedes Eingabezeichen, ob es würde „+“ oder „t“ ist nur zu dem einen oder anderen entsprechen.

Danke, Ben

Lösung

Leider glaube ich nicht, dass es eine einzige eindeutige Antwort für diese sein.

Es wird von der Schriftart abhängig. Vergleichen Sie die verschiedenen Möglichkeiten, die 0, f, s vertreten sind und auch stilistische Schnörkel

Es wird von der Art des Schadens hängen die Zeichen empfangen, bevor das abgetastet wird, einige gegen Verschmieren belastbarer sein kann, andere gegen Schnitte, alle anderen gegen Überschreiben.

Wenn Sie für eine Darstellung suchen, das am besten zu überleben gedruckt wird, gescannt und OCRed, dann vielleicht ein 1D- oder 2D-Barcode wäre eine bessere Wahl sein?

Andere Tipps

Nur ein Weg, um diese Frage zu beantworten: testen. Erstellen Sie eine Reihe von Proben für jeden Buchstaben und führt OCR auf jeder Probe. Die Buchstaben, die OCR wird direkt die meisten sind oft die „erkennbar“; die Briefe, die OCR am häufigsten falsch bekommt sind die „anders“.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow