Les fichiers PDF d'indexation avec Symfony en utilisant Lucene

https://stackoverflow.com/questions/2296278

21-09-2019
|

Question

Je suis un développeur Symfony et mon serveur web est Linux. J'utilise déjà le plugin sfLucene.

Quelle est la façon la plus simple des fichiers PDF d'indexation pour la recherche sur un serveur PHP Linux?

XPDF , installé < a href = "http://www.kapustabrothers.com/2008/01/20/indexing-pdf-documents-with-zend_search_lucene/" rel = "nofollow noreferrer"> comme celui-ci
Apache Tika via SOLR branche plugin sfLucene
Une 3ème option?

Merci!

La solution

Venant d'un arrière-plan Zend, je recommande généralement l'utilisation Zend_Search_Lucene. L'exemple XPDF est vraiment en avant et semble simple droit. XPDF est autorisé tant que GPL - si cela correspond à votre besoin, allez # 1

ZF peut facilement être intégré dans vos projets Symfony, par exemple pour un Twitter appel .

Autres conseils

Il existe de nombreuses bibliothèques pour extraire le contenu du texte du PDF. Avec toutes ces choses, vous devez ensuite créer un document Lucene avec le contenu. Les plus utiles sont ceux qui ont déjà l'intégration Lucene.

Apache PDFBox pouvez créer un document Lucene directement à partir du fichier PDF . Il comprendra des champs de métadonnées PDF ainsi que le contenu du texte.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow