Extrahieren Sie TOC von PDF?

https://stackoverflow.com/questions/2431426

19-09-2019
|

Frage

Ich bin ein PDF in Bilder / swf und Text mit Hilfe von SWFTools und XPDF Extrahieren .. ich diese in einem PDF-Skript ausgeführt wird.

Aber jetzt versuche ich, einen Schritt weiter zu gehen und versuchen, den TOC aus dem PDF zu erhalten, ist es möglich, diese Informationen zu extrahieren?

Lösung

Ich fand das mit einem klein bisschen suchen. Es sieht ziemlich vielversprechend.

PDFMiner: http://www.unixuser.org/~euske/ python / pdfminer / index.html

Hinweis: Das Tool ist Python basiert, aber man sollte das Werkzeug über eine Shell-Zugang nutzen kann. Alternativ können Sie einige nützliche Informationen aus dem Quellcode selbst in der Lage zu aufzulesen, da das Projekt Open Source ist.

Von der Site:

dumppdf.py

dumppdf.py Dumps den internen Inhalt einer PDF-Datei in pseudo-XML-Format. Dieses Programm ist in erster Linie für Debugging-Zwecke, aber es ist auch möglich, einige sinnvollen Inhalte (zB Bilder) zu extrahieren.

Beispiele:
$ dumppdf.py -a foo.pdf
(dump all the headers and contents, except stream objects)

$ dumppdf.py -T foo.pdf
(dump the table of contents)

$ dumppdf.py -r -i6 foo.pdf > pic.jpeg
(extract a JPEG image)

Andere Tipps

Ich habe versucht dump.pdf -T, aber es hat auf einigen PDF-Dateien nicht funktionieren.

Es ist ein weiteres Tool aus MuPDF namens mutool, die ich gerade gefunden. Ich weiß nicht, ob dies als dump.pdf besser ist, sondern auf einer PDF-Datei dump.pdf arbeitete wirft einen Fehler.

Hier ist, wie Extrakt TOC mit mutool

mutool show {your-pdf-file} outline

MuPDF

Alternativ können Sie verwenden MuPDF , die ein ziemlich leicht ist, aber vollständige PDF-Implementierung geschrieben C. In der apps/ Unterverzeichnis finden Sie einige Werkzeuge finden, die, dump und Extraktion von Informationen aus PDF-Dateien anzeigen können. Ich würde MuPDF über xpdf bevorzugen, weil sie aktiv gepflegt und hat eine bessere PDF-Unterstützung.

Ansonsten gibt es immer Poppler , die tatsächlich auf xpdf basiert. Die Entwickler portierten seinen Code auf C ++. Daher ist es führt schlechter als sein Vorgänger. Im Vergleich zu MuPDF scheint Poppler etwas mehr Funktionen zu haben, aber im Gegenzug der Code ist viel komplexer.

Für Ihre Zwecke sollte MuPDF ausreichend obwohl sein. Sie könnten eine einfache Anwendung aus dem Beispielcode hacken zusammen in apps/ vorausgesetzt, dass Extrakte alle Informationen, die Sie benötigen auf externe Anwendungen, ohne sich.

Ich denke, Blick auf PHP PDFLib ein sehr guter Platz wäre Anfang. Wenn Sie nach unten scrollen, werden Sie vielen benutzer geschrieben Lösungen für die Umwandlung von PDF zu HTML oder PDF zu Text sehen. Nach der Konvertierung kann eine relativ einfache Match-Funktion die markierten TOC Elemente extrahieren und sie in ein Array zum Beispiel werfen, die Sie dann als Sie bitte manipulieren kann.

Diese Stackoverflow Post auch einige Lösungen.

Hope, das hilft.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow