La solution
Consultez libpoppler . Je ne l'ai jamais utilisé travailler l'extraction de texte, juste l'interrogation des attributs PDF. Il est assez facile à utiliser.
Autres conseils
Dans quelle mesure avez-vous besoin de les analyser? Il suffit de chaînes d'extraction devraient être relativement facile, le rendu est plus difficile tout à fait exact. Jetez un oeil à la source pour Evince ou Ghostscript?
Ceci est pour C ++, mais peut-être un bon point de départ pour comprendre la structure PDF http: //www.codeproject.com/KB/cpp/ExtractPDFText.aspx (mauvais lien désolé avant)
Une autre possible, bien que je ne l'ai jamais utilisé est VersyPDF. Il prétend vous permettre d'éditer des fichiers PDF ... http: //versypdf.sybrex-systems- ltd.qarchive.org/