Obtenga la posición de texto con Tesseract 2.04 y Java

https://stackoverflow.com/questions/8390413

28-10-2019
|

Pregunta

Estoy realizando OCR usando Tesseract 2.04 en algunas imágenes, y ahora tengo que obtener la posición precisa del texto. Pero esta versión no devuelve esta información.

Necesito esto para generar un archivo PDF de búsqueda. Ya aprendí a sellar un texto en una capa debajo del PDF, pero necesito la posición para sellar este texto. Mi primera idea es realizar OCR en el PDF, obtener el texto y la posición del texto, para sellar en el PDF con ITEXT API.

Solución

Internamente en Itext también hemos investigado en OCR. Y es posible (usando Tesseract).

flujo de trabajo:

Extraiga todas las imágenes del PDF usando itext
Extraiga el texto (y coordenadas, fuente, etc.) usando Tesseract
Aplicar transformaciones de coordenadas (ya que el sistema de coordenadas de Tesseract y el sistema de coordenadas de ITEXT no son las mismas)
Agregue una capa al PDF (Canvas.Beginlayer)
Dibuja todo el texto en esta capa en la posición correcta

Hay muchas más optimizaciones que podrías hacer. Una breve lista de sugerencias:

Correcto de la línea de base
fuente correcta
errores de ortografía correctos
Estimarse de color
estimar el color de fondo

Esta no es una tarea fácil. Pero ciertamente posible.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow