¿Cómo encontrar campo en blanco en la imagen del documento escaneado

https://stackoverflow.com/questions/548309

23-08-2019
|

Pregunta

Quiero mi solicitud para llenar en un solo campo en una forma que existe como un archivo de imagen en blanco y negro. La forma siempre que comienza como la misma versión en papel, pero por el momento mi aplicación recibe de mis usuarios, que puede haber sido escaneada o por fax más de una vez. Debido a eso, el campo que necesito no está en el mismo lugar en cada archivo.

Mis usuarios no siempre reciben el formulario en blanco de mí, así que no lo hacen tienen la capacidad de imprimir una marca o marcador de posición que pueda reconocer más tarde.

Hay texto en el formulario en blanco original, sino porque puede se han enviado por fax, sólo tengo 200 dpi de resolución. El texto siempre es lo suficientemente grande para un ser humano a leer, pero yo soy escéptico sobre OCR.

Tengo un poco de presupuesto, así que no necesito una solución libre de dejar ... sólo decir $ de 2000.

Una vez dicho esto, estoy considerando

Obtener una solución de OCR para buscar el texto etiqueta en el campo que necesito. Yo no Creo que tengo los recursos o experiencia para rodar-mi-propia. Yo no necesitará el reconocimiento perfecto, ya que ya sabe lo que dice el texto. Pero necesito saber X e Coordenadas y. ¿Hay software que hace esto? O es la programación más fácil de lo que pienso?
Construir o comprar software para reconocer los bordes de la forma. Desde allí, Pudiera conseguir la posición relativa de el campo que necesito. Estoy pensando en la línea discontinua mi software del escáner pone alrededor de la imagen de un pequeño documento. Es que una conocida algorhthm o hay alguna otra disposición solución?
Algunos otra manera de reconocer la campo que necesito. Los intentos de google software de rellenado de formularios dame cientos de partidos de formularios web, formularios PDF, etc., que no haga lo que yo necesitar.

No soy exigente con la lengua. Mi aplicación se ejecuta en Linux, pero si la mejor solución es Microsoft, que probablemente puede hacer que el trabajo.

Te agradecería sus pensamientos.

Solución

Si he entendido bien, la forma es siempre la misma, pero se puede desplazar, escalar, o ligeramente girado debido a la fotocopia / fax. En ese caso, el problema es de registro de la imagen : Encontrar la transformación rígida óptimo que hace que una forma de una línea de usuario con el formulario de "modelo", en el que se conoce la ubicación del campo de interesar. Una vez que sepa la transformación, se puede calcular la ubicación del campo en forma del usuario.

Hay muchos algoritmos de registro de imágenes, normalmente desarrolladas para aplicaciones tales como la alineación de MR-imágenes del cerebro. Ellos son computacionalmente costosos y requieren priores estadísticos. Afortunadamente, su caso es más fácil: todo lo que necesita hacer es encajar un rectángulo alrededor de los contenidos de forma del usuario. Coordinar descenso debe trabajar. Se necesita algo de tolerancia para el ruido (basura fuera del formulario).

Otros consejos

Esto es un pequeño resumen de algunas de las soluciones de OCR disponibles (código abierto y no): http://googlesystem.blogspot.com/2007/04/open-source-ocr-software-sponsored-by.html

Rígido registro puede no ser suficiente. Los usuarios pueden modificar el diseño y el formato de una forma de plantilla, como cambiar las fuentes, cambie la ubicación de una casilla de verificación o un cuadro de entrada, romper un párrafo en diferentes posiciones de salto de línea, etc. Estas diferencias son más complicadas de tratar que los puros cambio, la rotación o transformación de escala. Además, si su imagen es la imagen binaria (blanco y negro), no creo que los algoritmos de registro de imágenes médicas (que trabajan en la imagen en escala de grises) ayudará mucho. Sus estrategias de función y de minimización de costes se pueden cambiar en consecuencia.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow