Existe alguma maneira de melhorar OCR tesseract com fontes pequenas?

https://stackoverflow.com/questions/4909396

29-10-2019
|

Pergunta

Eu estou tentando usar o tesseract-OCR via python-tesseract para ler uma baixa resolução, tipo de letra que se parece com isso:

enter image description here

Infelizmente, a imagem que retorna

ZIJZHZI

Eu acho que a resolução é muito baixa, e que está causando problemas.Eu tentei ampliar a imagem e corte-o para baixo para caracteres individuais, mas nenhum desses fornecer o máximo de melhoria.Há mais alguma coisa que eu deveria considerar fazer, de preferência algo que poderia ser feito usando o Python Imaging Library?Ou devo desistir de trem/tesseract.

Por que vale a pena, o PIL tem o seguinte construído com os filtros:

DESFOQUE O CONTORNO, DETALHE, EDGE_ENHANCE,
EDGE_ENHANCE_MORE, RELEVO, FIND_EDGES,
SUAVE, SMOOTH_MORE, e AGUÇAR a

Solução

Eu tentei para ampliar a imagem com:

  convert -resize 400% in.bmp out.bmp

E, em seguida, leia-o:

  tesseract out.bmp res

O resultado está correto:

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow