OCR und Wort reviewing

https://stackoverflow.com/questions/2396085

25-09-2019
|

Frage

Ich bin mit Tesseract für meinen Brief Anerkennung Projekt und zur Zeit ist die Anerkennungen recht gut. Das Bildverarbeitungsteil wurde mit OpenCV-Bibliotheken durchgeführt. Die Buchstaben sind von Hand written.But gibt es einige Probleme, wenn ich es verwendet, um die Buchstaben „O“ und Nummer „0“ zu erkennen. Diese Buchstaben werden in Datenbereiche wie die Felder verwendet, die Namen eingeben. So Namen haben keine Nummern mit. Und wenn wir die das System der Datenfelder als Geburtsdatum verwenden es enthält nur Zahlen. Also ich bin bereit, Beschränkung auf das Erkennungssystem zu geben, zu sagen, dass die entsprechenden Datenfelder haben nur Zahlen oder Buchstaben.

Und auch ich bin bereit, die erkannten Buchstaben mit den möglichen Worten zu überprüfen, so wir die Genauigkeit der Daten zu verbessern. Ich bin bereit, die OpenCV-Bibliotheken für diese Aufgabe zu verwenden. Aber ich weiß nicht, was die Bibliotheken sind, dass die Hilfe für diese Aufgabe und was sind die Funktionalitäten von denen. So können Sie jemand helfen mir. Danke.

Viele Grüße, Thilanka.

Lösung

Ich habe noch nie verwendet Tesseract. Allerdings in der FAQ heißt es

Wie erkenne ich nur Ziffern?

TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");

Vermutlich könnte man das Muster des FAQ-Eintrags verwenden, um es einzurichten, so dass es nur Buchstaben erkennt oder nur entsprechend Ziffern.

Wenn Sie dies bereits versucht haben, können Sie geben weitere Details, warum es nicht funktioniert?

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow