Obtenga la posición de texto con Tesseract 2.04 y Java
Pregunta
Estoy realizando OCR usando Tesseract 2.04 en algunas imágenes, y ahora tengo que obtener la posición precisa del texto. Pero esta versión no devuelve esta información.
Necesito esto para generar un archivo PDF de búsqueda. Ya aprendí a sellar un texto en una capa debajo del PDF, pero necesito la posición para sellar este texto. Mi primera idea es realizar OCR en el PDF, obtener el texto y la posición del texto, para sellar en el PDF con ITEXT API.
Solución
Internamente en Itext también hemos investigado en OCR. Y es posible (usando Tesseract).
flujo de trabajo:
- Extraiga todas las imágenes del PDF usando itext
- Extraiga el texto (y coordenadas, fuente, etc.) usando Tesseract
- Aplicar transformaciones de coordenadas (ya que el sistema de coordenadas de Tesseract y el sistema de coordenadas de ITEXT no son las mismas)
- Agregue una capa al PDF (Canvas.Beginlayer)
- Dibuja todo el texto en esta capa en la posición correcta
Hay muchas más optimizaciones que podrías hacer. Una breve lista de sugerencias:
- Correcto de la línea de base
- fuente correcta
- errores de ortografía correctos
- Estimarse de color
- estimar el color de fondo
Esta no es una tarea fácil. Pero ciertamente posible.
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow