Pregunta

No quiero saber lo que dice, y no tendrá que lidiar con cualquier distorsión como un CAPTCHA de, sólo quiero saber si a montón de imágenes contienen texto.

Esto es algo que se ejecuta en un par de servidores Linux de inactividad, y una tarea programada procesará un gran lote de imágenes múltiples veces al día.

Una de las cosas que quiero hacer en el proceso, es descartar cualquier imagen con el texto en ellos. No me importa que algunos falsos positivos, pero me gustaría llegar lo más cerca a una tasa de cero por ciento fallar cuando se trata de identificar las imágenes con el texto que debe ser descartada como sea posible.

¿Fue útil?

Solución

El Tesseract OCR- es lo que utiliza Google para Google Libros. Darle una oportunidad.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top