Extraer y analizar información de diseño específica del motor OCR

https://stackoverflow.com/questions/8367641

27-10-2019
|

Pregunta

Estoy intentando analizar la información del diseño de los motores OCR con PHP, excepto que no están dando ningún detalle.

Tengo tanto Tesseract (con Leptonica) como Cuneiform instalados. Supuestamente cuneiforme es excelente para detectar el diseño (es decir, qué es el texto, lo que es una imagen, etc.) La entrada son archivos PNG con texto y imágenes (obviamente, el texto es parte de la imagen).

Todos parecen pensar que quiero la salida como TXT o HTML o HOCR ... cuando lo que quiero son las coordenadas de lo que cree que es texto y lo que cree que es una imagen.

Cuneiform tiene una opción de salida "nativa" que es el formato Cuneiform 2000, abriéndola en Notepad ++. Puedo ver que está comprimido. He intentado extraerlo con Zip y Gzip, pero ninguno de los dos lo reconoce. Tampoco hay información sobre Google sobre el formato nativo de cuneiform.

¿Alguien tiene alguna idea de cómo extraer la información de diseño de Tesseract o Cuneiform ... o tiene mejores ideas para descubrir el diseño de una imagen que contiene bloques e imágenes de texto?

Solución

Mira esto ABBYY FINEREADER MOTOR. Tiene una API muy inteligente que proporciona la máxima información sobre el texto recognizado, incluidas sus coordenadas. No es gratis, pero cuando se trata de software de negocios: ABBYY OCR Technologies puede agregar un valor serio a su producto.

Dado que está trabajando en una aplicación web en PHP, es posible que desee utilizar la API web del motor ABBYY OCR en www.ocrsdk.com. Ahora está en beta cerrada, así que por ahora es gratis de usar.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow