Pergunta

Eu não quero saber o que ele diz, e não vai ser lidar com qualquer distorção como um CAPTCHA, eu só quero saber se um bando de imagens conter qualquer texto.

Isso é algo que será executado em um par de servidores Linux ociosas, e um trabalho cron irá processar um grande lote de imagens várias vezes por dia.

Uma das coisas que eu quero fazer no processo, é descartar quaisquer imagens com texto em si. Não me importo de alguns falsos positivos, mas eu gostaria de obter tão perto de um por cento de taxa zero falhar quando se trata de identificar imagens com texto que deve ser descartado como possível.

Foi útil?

Solução

O Tesseract-OCR é o Google usa para o Google Books. Experimentá-lo.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top