Python Tesseract kann diese Schrift nicht erkennen

https://stackoverflow.com/questions/1762565

21-09-2019
|

Frage

Ich habe dieses Bild:

Ich möchte es in einen String lesen mit Python, was ich denke nicht so schwer sein würde. Ich kam auf tesseract, und dann ein Wrapper für Python-Skripte mit tesseract.

So begann ich Bilder zu lesen, und es fertig ist groß, bis ich diesen zu lesen versucht. Werde ich habe es zu trainieren, dass bestimmte Schriftart zu lesen? Irgendwelche Ideen auf, was das bestimmte Schriftart ist? Oder gibt es eine bessere OCR-Engine ich mit Python verwenden könnte diese Aufgabe zu erledigen.

Edit: Vielleicht könnte ich eine Art von Vektor macht um die Zahlen, neu zeichnet sie dann in einer größeren Größe? Die größeren Bilder sind, desto besser Tesserakts ocr scheint sie (keine Überraschung, lol) zu lesen.

Lösung

trainieren Sie einfach den Motor für die 10 Stellen und einem ‚‘ . Das sollte es tun. Und stellen Sie sicher, dass Sie Ihr Bild ändern, bevor OCRing es in Graustufen.

Andere Tipps

Training ist hart und ist nicht das, was hier wirklich benötigt wird. Die Unterscheidung zwischen O und 0 und l und 1 wird hart sein, nicht die Skript Rolle. nur zwischen numerischen Ziffern des OCR-Begrenzung wählen erheblich vereinfacht das Problem, wenn der Kontext es zulässt.

Mein Interesse an tesseract ist viele Zahlen in der Verarbeitung von alter Regierung berichtet. In diesem Fall und in dem Fall in Frage, wird der Zeichensatz so etwas wie ‚0123456789‘ sein Nach einem Kommentar in der alten (Source) Newsgroup für tesseract, von eric_taj auf 2007.03.21, können Sie ändern Vorlagen-> IndexFor und Vorlagen-> ClassIdFor in Klassifiziert / intproto.cpp Zeichen zu maskieren, die nicht dürfen, . Ich änderte ein wenig diesen Ansatz in dem erlaubten Zeichensatz zur Laufzeit in einer Umgebungsvariablen zu lesen, so dass ich einstellen kann, die im laufenden Betrieb gesetzt erlaubt.

Es hat sich zu diesem Thema viel Verkehr war in der Tesseract OCR-Diskussionsgruppe in letzter Zeit. Sie müssen eine „Sprache“ von nur Zahlen verwenden. Viele Menschen haben, bevor der Motor auf diese Weise ausgebildet. Es sieht aus wie Sie versuchen, ein Captcha Datenschutzschema ... tsk, tsk.

auszutricksen

kleine Schrift auf dem Bildschirm erkennen kann für die Mehrzweck schwer OCR, die für das Lesen von großen glatten Schriftart aus Papier gescannt optimiert ist.

Sie können besser versuchen, spezielle Screenshot OCR wie Textract SDK . Es werden alle lokalen Zeichensätze sammeln und zu 100% präzise Erkennung bieten, indem Sie einfach auf die Zeichen entsprechen.

Das sieht aus wie Eurostile Schriftart. Ja, Sie haben mit jedem anderen Schriftart zu trainieren, die in Ihren Quellbildern verwendet wird.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow