detecção de caráter rápido

https://stackoverflow.com/questions/1081526

text
image-processing
ocr

22-08-2019
|

Pergunta

Eu não quero saber o que ele diz, e não vai ser lidar com qualquer distorção como um CAPTCHA, eu só quero saber se um bando de imagens conter qualquer texto.

Isso é algo que será executado em um par de servidores Linux ociosas, e um trabalho cron irá processar um grande lote de imagens várias vezes por dia.

Uma das coisas que eu quero fazer no processo, é descartar quaisquer imagens com texto em si. Não me importo de alguns falsos positivos, mas eu gostaria de obter tão perto de um por cento de taxa zero falhar quando se trata de identificar imagens com texto que deve ser descartado como possível.

Solução

O Tesseract-OCR é o Google usa para o Google Books. Experimentá-lo.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow