Existe alguma maneira de melhorar OCR tesseract com fontes pequenas?
-
29-10-2019 - |
Pergunta
Eu estou tentando usar o tesseract-OCR via python-tesseract para ler uma baixa resolução, tipo de letra que se parece com isso:
Infelizmente, a imagem que retorna
ZIJZHZI
Eu acho que a resolução é muito baixa, e que está causando problemas.Eu tentei ampliar a imagem e corte-o para baixo para caracteres individuais, mas nenhum desses fornecer o máximo de melhoria.Há mais alguma coisa que eu deveria considerar fazer, de preferência algo que poderia ser feito usando o Python Imaging Library?Ou devo desistir de trem/tesseract.
Por que vale a pena, o PIL tem o seguinte construído com os filtros:
DESFOQUE O CONTORNO, DETALHE, EDGE_ENHANCE,
EDGE_ENHANCE_MORE, RELEVO, FIND_EDGES,
SUAVE, SMOOTH_MORE, e AGUÇAR a
Solução
Eu tentei para ampliar a imagem com:
convert -resize 400% in.bmp out.bmp
E, em seguida, leia-o:
tesseract out.bmp res
O resultado está correto:
100