Extracto de la tabla de contenido de PDF?

https://stackoverflow.com/questions/2431426

19-09-2019
|

Pregunta

Estoy extracción de un PDF en imágenes / SWF y el texto con la ayuda de SWFTools y XPDF .. Me postulo estos en una secuencia de comandos PDF.

Pero ahora que estoy tratando de ir un paso más allá y tratar de conseguir la tabla de contenido del PDF es posible extraer esta información?

Solución

He encontrado esto con un poco de búsqueda. Se ve bastante prometedor.

PDFMiner: http://www.unixuser.org/~euske/ Python / pdfminer / index.html

Nota: La herramienta se basa en Python, pero debe ser capaz de utilizar la herramienta a través de acceso a una consola. Alternativamente, usted puede ser capaz de recoger alguna información útil desde el código fuente en sí, ya que el proyecto es de código abierto.

Desde el sitio:

dumppdf.py

dumppdf.py vuelca el contenido interno de un archivo PDF en formato pseudo-XML. Este programa es principalmente para propósitos de depuración, pero también es posible extraer algunos contenidos significativos (por ejemplo, imágenes).

Ejemplos:
$ dumppdf.py -a foo.pdf
(dump all the headers and contents, except stream objects)

$ dumppdf.py -T foo.pdf
(dump the table of contents)

$ dumppdf.py -r -i6 foo.pdf > pic.jpeg
(extract a JPEG image)

Otros consejos

He intentado dump.pdf -T, pero no funcionó en algunos archivos PDF.

Hay otra herramienta de MuPDF llamado mutool, que acabo de encontrar. No sé si esto es mejor que dump.pdf pero trabajó en un archivo PDF dump.pdf genera un error.

Aquí es cómo extraer TOC con mutool

mutool show {your-pdf-file} outline

MuPDF

Como alternativa, puede utilizar MuPDF que es un muy ligero, pero completa aplicación PDF C. En el escrito apps/ subdirectorio encontrará algunas herramientas que pueden ver, volquetes y extraer información de los archivos PDF. Yo prefiero MuPDF sobre xpdf, ya que se mantiene activa y tiene mejor compatibilidad con PDF.

De lo contrario, siempre hay Poppler que en realidad se basa en xpdf. Los desarrolladores portado su código en C ++. Por lo tanto, es peor que lleva a cabo su predecesor. En comparación con MuPDF, Poppler parece tener poco más características, pero a cambio el código es mucho más compleja.

Para los propósitos MuPDF debería ser suficiente sin embargo. Se podía cortar juntos una sencilla aplicación del código de ejemplo proporcionado en apps/ que extrae toda la información que necesita sin tener que depender de aplicaciones externas.

Creo que viendo PDFLib de PHP sería un muy buen lugar para comienzo. Si se desplaza hacia abajo, verá un montón de soluciones publicado por el usuario para la conversión de PDF a HTML o PDF a texto. Después de la conversión, una función de comparación relativamente simple podría extraer los artículos etiquetados TOC y tirarlos en una matriz, por ejemplo, que luego se puede manipular a su gusto.

Este post StackOverflow también tiene algunos más soluciones.

Espero que esto ayude.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow