Pregunta

Estoy realizando OCR usando Tesseract 2.04 en algunas imágenes, y ahora tengo que obtener la posición precisa del texto. Pero esta versión no devuelve esta información.

Necesito esto para generar un archivo PDF de búsqueda. Ya aprendí a sellar un texto en una capa debajo del PDF, pero necesito la posición para sellar este texto. Mi primera idea es realizar OCR en el PDF, obtener el texto y la posición del texto, para sellar en el PDF con ITEXT API.

¿Fue útil?

Solución

Internamente en Itext también hemos investigado en OCR. Y es posible (usando Tesseract).

flujo de trabajo:

  1. Extraiga todas las imágenes del PDF usando itext
  2. Extraiga el texto (y coordenadas, fuente, etc.) usando Tesseract
  3. Aplicar transformaciones de coordenadas (ya que el sistema de coordenadas de Tesseract y el sistema de coordenadas de ITEXT no son las mismas)
  4. Agregue una capa al PDF (Canvas.Beginlayer)
  5. Dibuja todo el texto en esta capa en la posición correcta

Hay muchas más optimizaciones que podrías hacer. Una breve lista de sugerencias:

  • Correcto de la línea de base
  • fuente correcta
  • errores de ortografía correctos
  • Estimarse de color
  • estimar el color de fondo

Esta no es una tarea fácil. Pero ciertamente posible.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top