¿Qué software recomendaría para mejorar la imagen antes de OCR (Reconocimiento óptico de caracteres)? [cerrado]

StackOverflow https://stackoverflow.com/questions/142743

Pregunta

Actualmente estamos investigando formas de mejorar la calidad de la imagen antes de enviarla a OCR. El motor de OCR que estamos utilizando actualmente es la API de Scansoft de Nuance (v15). Estábamos investigando las Herramientas principales pero desde entonces hemos decidido buscar en otra parte. Los costos de licencia asociados con Lead Tools son demasiado altos. Para empezar, buscamos funciones simples de mejora de imagen, como alineación, eliminación de líneas, eliminación de líneas, eliminación de agujeros de perforación, afilado, etc. Estamos ejecutando una combinación de software .NET y Java, pero se preferirá una solución Java.

¿Fue útil?

Solución

Kofax es bueno para el procesamiento previo, pero para los tipos de limpieza de los que está hablando puede ser excesivo a menos que las imágenes sean realmente malas. A menos que su especialidad sea en el procesamiento de imágenes, recomendaría trabajar con un proveedor que realice la limpieza de la imagen y el OCR para que pueda concentrarse en el valor que realmente agrega.

Autorizamos el kit de desarrollo de OCR de ABBYY ( ABBY SDK ) y lo encontramos Excelente tanto para el procesamiento de imágenes como para OCR. La API es bastante extensa, y las aplicaciones de muestra, la ayuda y el soporte han sido más que impresionantes. Definitivamente recomiendo echar un vistazo.

Otros consejos

Descargo de responsabilidad: trabajo para Atalasoft

Tenemos esas funciones y licencias en tiempo de ejecución libres de regalías para .NET.

http://www.atalasoft.com/products/dotimage/

También tenemos componentes OCR que incluyen un envoltorio .NET para Abbyy, Tesseract y otros y una generación de PDF con capacidad de búsqueda (imagen en la parte superior del texto en un PDF)

No estoy seguro de si esto estaría bastante a la altura de los estándares que ustedes necesitarían, pero quizás debería ver algunos de los API de Paint.Net . No sé qué tan fácil sería extraer sus algoritmos de procesamiento de imágenes para usarlos en su proyecto, pero creo que hacen algunas de las cosas que está buscando. Además, es un proyecto de código abierto con una licencia MIT, por lo que debería ser bastante amigable para el uso comercial.

Investigue sobre KOFAX VRS en KOFAX.com

Tal vez JMagick, es una interfaz Java de código abierto de ImageMagick. Se implementa en forma de una capa delgada de interfaz nativa de Java (JNI) en la API de ImageMagick. Está bajo la licencia LGPL, por lo que no debería tratarse de una licencia problemática.

http://sourceforge.net/projects/jmagick/

Sugeriría Intel para su licencia de tiempo de ejecución de costo cero.

Depende del número y la calidad de las imágenes originales. Los kits de herramientas de imágenes y códigos administrados funcionarán, pero no siempre es la mejor solución si tiene varios millones de imágenes para procesar. Para lotes pequeños y presupuestos ajustados, estoy de acuerdo con los pósters anteriores de que proyectos como Aforge, Paint.NET y otras bibliotecas de visión de computadora de código abierto funcionarán. Por supuesto, usted está solo si los resultados no están mejorando ... Al menos, esto le permite poner todo lo que necesita en una aplicación por un bajo costo.

Si está procesando varios cientos de miles de imágenes al mes, le sugiero que divida el proceso en un paso de flujo de trabajo más pequeño y modifique cada una hasta que su costo por imagen sea lo más cercano posible a cero. Encontrará que los resultados de OCR aumentan rápidamente al principio y luego se nivelan antes de lo esperado. (No soy un gran fan de OCR pero tiene su lugar)

Utilizo el producto comercial de Windows de Recogniform para procesar y limpiar las imágenes antes de OCR en modo de proceso por lotes utilizando scripts ajustados para varios tipos de imágenes. Si una imagen falla el control de calidad o es rechazada por el motor OCR, se " repara " a mano usando una aplicación .NET personalizada creada con el kit de herramientas Atalasoft . Procesa por lotes todo y solo toca lo que falla.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top