Les fichiers PDF d'indexation avec Symfony en utilisant Lucene
-
21-09-2019 - |
Question
Je suis un développeur Symfony et mon serveur web est Linux. J'utilise déjà le plugin sfLucene.
Quelle est la façon la plus simple des fichiers PDF d'indexation pour la recherche sur un serveur PHP Linux?
- XPDF , installé < a href = "http://www.kapustabrothers.com/2008/01/20/indexing-pdf-documents-with-zend_search_lucene/" rel = "nofollow noreferrer"> comme celui-ci
- Apache Tika via SOLR branche plugin sfLucene
- Une 3ème option?
Merci!
La solution
Venant d'un arrière-plan Zend, je recommande généralement l'utilisation Zend_Search_Lucene. L'exemple XPDF est vraiment en avant et semble simple droit. XPDF est autorisé tant que GPL - si cela correspond à votre besoin, allez # 1
ZF peut facilement être intégré dans vos projets Symfony, par exemple pour un Twitter appel .
Autres conseils
Il existe de nombreuses bibliothèques pour extraire le contenu du texte du PDF. Avec toutes ces choses, vous devez ensuite créer un document Lucene avec le contenu. Les plus utiles sont ceux qui ont déjà l'intégration Lucene.
Apache PDFBox pouvez créer un document Lucene directement à partir du fichier PDF . Il comprendra des champs de métadonnées PDF ainsi que le contenu du texte.