Question

Je veux être capable de lire le contenu des fichiers PDF. Je dois le faire avec C sous Linux.

Plus je peux arriver à c'était mais je pense Haru ne peut créer pdf et ne peut pas les lire (pas sûr à 100%).

PS: je ne ai besoin le texte brut de pdf

Était-ce utile?

La solution

Consultez libpoppler . Je ne l'ai jamais utilisé travailler l'extraction de texte, juste l'interrogation des attributs PDF. Il est assez facile à utiliser.

Autres conseils

Dans quelle mesure avez-vous besoin de les analyser? Il suffit de chaînes d'extraction devraient être relativement facile, le rendu est plus difficile tout à fait exact. Jetez un oeil à la source pour Evince ou Ghostscript?

Ceci est pour C ++, mais peut-être un bon point de départ pour comprendre la structure PDF http: //www.codeproject.com/KB/cpp/ExtractPDFText.aspx (mauvais lien désolé avant)

Une autre possible, bien que je ne l'ai jamais utilisé est VersyPDF. Il prétend vous permettre d'éditer des fichiers PDF ... http: //versypdf.sybrex-systems- ltd.qarchive.org/

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top