Mejorar la precisión de OCR de los documentos escaneados

https://stackoverflow.com/questions/4658407

09-10-2019
|

Pregunta

Estoy escaneando una gran cantidad de documentos A3 utilizando un estándar de Brother A3 multifunción y luego usar FineReader Pro para OCR'ing las imágenes.

Sin embargo, estoy recibiendo una gran cantidad de errores en los caracteres reconocidos, y un montón de extraños personajes que no sean alfanuméricos.

Puede alguien darme algún consejo para mejorar la precisión de OCR mediante programación, ya sea pre-procesamiento de las imágenes escaneadas, o post-procesamiento en el texto reconocido?

Editar: Encuentra una muestra pdf . Incluye algunas imágenes de la muestra de la que obtener los resultados más pobres.

Solución

¿Tiene una imagen de muestra que se puede colocar en algún lugar, entonces se puede decir rápidamente lo que está causando la mayor parte de sus problemas. FineReader es uno de los mejores motores de OCR por ahí así que definitivamente hay razones por las que está obteniendo resultados pobres.

Podría estar relacionado con contraste y umbral pobres, los ajustes de imagen inclinadas, rodillos sucios en el escáner, fondos complejos y de color, fondos interpolados, tamaños de fuente muy pequeño, el escaneo dpi ser demasiado baja, etc ...

Después de ver la imagen adjunta hay algunos pequeños problemas.

Hay un montón de manchas sucias en el fondo de la página. FineReader parece hacer un trabajo razonable con esto en sus imágenes.
Hay una ligera inclinación, pero que no le está haciendo y problemas.
FineReader se está confundido con el tipo de fuente Arial de altura negrita Se utiliza para los encabezados de columna.
4 Un gran problema parece ser la región inferior de las páginas donde el contraste es pobre y la imagen es borrosa. Esto parece ser un problema con el escáner, pero podría ser debido a problemas de impresión.

La impresión es bastante pobre y estoy adivinando que es una exploración de un periódico. La mayoría de los errores se deben a la exploración de temas por lo que sería difícil de mejorar los resultados mediante programación.

En primer lugar, me gustaría tratar de escanear la imagen en escala de grises con una resolución ligeramente superior y ver si eso ayuda. FineReader funciona bien con imágenes en escala de grises. Si usted tiene que tener una imagen B / W y luego ver si el controlador del escáner incluye una configuración de umbral dinámico y vuelva a encenderlo.

Sus imágenes no sería una tarea fácil para cualquier motor de OCR. Obtendrá mejores resultados si se puede mejorar la exploración. Página 3 tiene una gran cantidad de ruido en la esquina inferior derecha.

¿Qué versión de FineReasder está usando? FR10 probablemente dará mejores resultados que las versiones anteriores.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow