¿Hay alguna manera de mejorar el OCR de Tesseract con fuentes pequeñas?

https://stackoverflow.com/questions/4909396

29-10-2019
|

Pregunta

Estoy tratando de usar Tesseract-OCR a través de Python-Tesseract para leer una fuente de baja resolución que se parece a esto:

ingrese la descripción de la imagen aquí

Lamentablemente esa imagen devuelve

ZIJZHZI

Creo que la resolución es demasiado baja y eso está causando problemas.He intentado mejorar la imagen y lo he reducido a personajes individuales, pero ninguno de estos proporciona mucha mejora.¿Hay algo más que deba considerar hacer, preferiblemente algo que se pueda hacer con la biblioteca de imágenes de Python?O debería rendirme en Tesseract.

Por lo que vale la pena, el PIL tiene los siguientes filtros incorporados:

borroso, contorno, detalle, edge_enhance,
Edge_enhance_more, Refoss, Find_edges,
Liso, smooth_more, y afilado

Solución

He intentado ampliar la imagen con:

  convert -resize 400% in.bmp out.bmp

y luego leerlo:

  tesseract out.bmp res

El resultado es correcto:

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow