¿Hay alguna manera de mejorar el OCR de Tesseract con fuentes pequeñas?
-
29-10-2019 - |
Pregunta
Estoy tratando de usar Tesseract-OCR a través de Python-Tesseract para leer una fuente de baja resolución que se parece a esto:
Lamentablemente esa imagen devuelve
ZIJZHZI
Creo que la resolución es demasiado baja y eso está causando problemas.He intentado mejorar la imagen y lo he reducido a personajes individuales, pero ninguno de estos proporciona mucha mejora.¿Hay algo más que deba considerar hacer, preferiblemente algo que se pueda hacer con la biblioteca de imágenes de Python?O debería rendirme en Tesseract.
Por lo que vale la pena, el PIL tiene los siguientes filtros incorporados:
borroso, contorno, detalle, edge_enhance,
Edge_enhance_more, Refoss, Find_edges,
Liso, smooth_more, y afilado
Solución
He intentado ampliar la imagen con:
convert -resize 400% in.bmp out.bmp
y luego leerlo:
tesseract out.bmp res
El resultado es correcto:
100