Question

Je suis un extrais pdf en images / swf et le texte à l'aide de SWFTools et XPDF .. Je cours ces derniers dans un script PDF.

Mais maintenant, je suis en train d'aller un peu plus loin et essayer d'obtenir la table des matières du PDF est-il possible d'extraire ces informations?

Était-ce utile?

La solution

J'ai trouvé cela avec un peu de recherche. Il semble plutôt prometteur.

PDFMiner: http://www.unixuser.org/~euske/ python / pdfminer / index.html

Note: L'outil est basé Python, mais vous devriez être en mesure d'utiliser l'outil via un accès shell. Sinon, vous pourriez être en mesure de glaner quelques informations utiles à partir du code source lui-même, que le projet est open source.

À partir du site:

  

dumppdf.py

     

dumppdf.py sauvegarde le contenu interne d'un fichier PDF au format pseudo-XML. Ce programme est principalement à des fins de débogage, mais il est aussi possible d'extraire des contenus significatifs (comme les images).

     

Exemples:

$ dumppdf.py -a foo.pdf
(dump all the headers and contents, except stream objects)

$ dumppdf.py -T foo.pdf
(dump the table of contents)

$ dumppdf.py -r -i6 foo.pdf > pic.jpeg
(extract a JPEG image)

Autres conseils

J'ai essayé dump.pdf -T, mais il ne fonctionne pas sur certains fichiers PDF.

Il est un autre outil de mutool nommé MuPDF, que je viens de trouver. Je ne sais pas si cela vaut mieux que dump.pdf mais a travaillé sur un fichier PDF dump.pdf renvoie une erreur.

Voici comment extraire TOC avec mutool

mutool show {your-pdf-file} outline

MuPDF

Vous pouvez utiliser MuPDF qui est une implémentation PDF assez léger mais complet écrit C. Dans le sous-répertoire apps/ vous trouverez des outils qui peuvent voir, le dépotage et le extraire des informations à partir de fichiers PDF. Je préfère MuPDF sur xpdf parce qu'il est activement entretenu et a un meilleur support PDF.

Dans le cas contraire, il y a toujours Poppler qui est en fait basé sur xpdf. Les développeurs portés son code C ++. Il est donc pire que son exécute prédécesseur. Par rapport à MuPDF, Poppler semble avoir des caractéristiques un peu plus, mais en retour, le code est beaucoup plus complexe.

Pour vos fins MuPDF devrait être suffisant cependant. Vous pouvez pirater ensemble une application simple à partir du code exemple fourni dans apps/ qui extrait toutes les informations dont vous avez besoin sans compter sur des applications externes.

Je pense que la recherche PDFLib de PHP serait un très bon endroit pour début. Si vous faites défiler vers le bas, vous verrez beaucoup de solutions postées par des utilisateurs pour convertir PDF en HTML ou PDF en texte. Après la conversion, une fonction de correspondance relativement simple pourrait extraire les éléments TOC marqués et les jeter dans un tableau par exemple, que vous pouvez ensuite manipuler comme s'il vous plaît.

Ce message StackOverflow a aussi quelques autres solutions.

Hope this helps.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top