Determinar "cajas de interés" en una página PDF
-
06-07-2019 - |
Pregunta
Deseo poder determinar el cuadro delimitador de áreas de texto, imágenes y rutas en una página PDF, similar a lo que se muestra aquí:
http://www.windjack.com/products/screenshot/pdfcanscreenshot2.html
Al observar la especificación de PDF, puedo ver cómo determinar los cuadros delimitadores de rutas e imágenes, pero no puedo ver cómo llegar a ellos para el texto. ¿Tengo que calcularlo a mano, determinando la altura y el ancho de los glifos a partir del tamaño de fuente, etc., o hay una forma más sencilla?
Solución
Puede comenzar con la solución para " ¿Cómo obtengo información de desplazamiento de caracteres de un documento pdf? " Eso le dará x, y, ancho y alto para caracteres y / o subcadenas en el documento. A partir de ahí, la parte más difícil es unir los grupos de personajes en regiones espacialmente distintas. No hay garantía de que el texto agrupado espacialmente en una página esté cerca uno del otro en la sintaxis del formato de archivo ...