Python Tesseract no puede reconocer este tipo de letra

https://stackoverflow.com/questions/1762565

21-09-2019
|

Pregunta

Tengo esta imagen:

quiero leer en una cadena utilizando Python, que no pensé que sería tan difícil. Me encontré con Tesseract, y luego una envoltura para scripts de Python usando Tesseract.

Así que empecé a leer las imágenes, y ya está bien hasta que traté de leer éste. ¿Voy a tener que entrenarlo para leer ese tipo de letra específico? Alguna idea sobre lo que es la fuente específica? ¿O hay un motor de OCR mejor que podría utilizar con Python para hacer este trabajo.

Edit: Tal vez podría hacer algún tipo de vector alrededor de los números, a continuación, volver a dibujar en un tamaño más grande? Las imágenes más grandes son la mejor OCR Tesseract parece leerlos (ninguna sorpresa lol).

Solución

Sólo entrenar el motor para los 10 dígitos y un '' . Deberias hacer eso. Y asegúrese de cambiar su imagen a escala de grises antes de OCR de la misma.

Otros consejos

El entrenamiento es duro y no es lo que realmente se necesita aquí. La distinción entre O y 0 y 1 l, y va a ser duro, no importa el guión. La limitación de la OCR para elegir sólo entre dígitos numéricos simplifica en gran medida el problema, si el contexto lo permite.

Mi interés en Tesseract es en el procesamiento de una gran cantidad de números, a partir de los informes del gobierno de edad. En este caso y en el caso en cuestión, el juego de caracteres será algo así como '0123456789' A raíz de un comentario en el grupo de noticias de edad (sourceforge) para Tesseract, por eric_taj en 2007-03-21, puede modificar Plantillas-> IndexFor y Plantillas-> ClassIdFor en clasificar / intproto.cpp para enmascarar caracteres que no van a dejarse . He modificado este enfoque un poco de leer en el carácter permitido establecer en tiempo de ejecución en una variable de entorno, de modo que pueda ajustar el conjunto permitido sobre la marcha.

Ha habido una gran cantidad de tráfico sobre este tema en el href="http://groups.google.com/group/tesseract-ocr/topics" rel="nofollow noreferrer"> Tesseract OCR grupo de discusión últimamente. Usted tendrá que utilizar un "lenguaje" de sólo números. Muchas personas han entrenado el motor de esa manera antes. Parece que usted está tratando de burlar a un esquema de protección de datos de código de imagen ... tsk, tsk.

Reconociendo fuente de pantalla pequeña puede ser difícil para el propósito general OCR que está optimizado para la lectura de fuente grande liso escaneada de papel.

Puede intentar una mejor captura de pantalla especial como OCR Textract SDK . Se recogerá todas las fuentes locales y proporcionar el 100% de reconocimiento preciso por el simple juego un personaje a otro.

Eso se parece a la fuente Eurostile. Sí, usted tendrá que entrenar con cada fuente diferente que se utiliza en sus imágenes de origen.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow