i file di indicizzazione PDF con Symfony utilizza Lucene
-
21-09-2019 - |
Domanda
Sono uno sviluppatore di Symfony e il mio web server è Linux. Ho già utilizzare il plugin sfLucene.
Qual è il modo più semplice di file PDF indicizzazione per la ricerca su un server Linux PHP?
- XPDF , installato < a href = "http://www.kapustabrothers.com/2008/01/20/indexing-pdf-documents-with-zend_search_lucene/" rel = "nofollow noreferrer"> come questo
- Apache Tika tramite il SOLR sfLucene ramo plug
- Una terza opzione?
Grazie!
Soluzione
Per chi proviene da uno sfondo Zend, mi raccomando generalmente utilizzando Zend_Search_Lucene. L'esempio XPDF è davvero dritto in avanti e sembra semplice. XPDF è concesso in licenza come GPL - se che misura il vostro bisogno, andare per 1 #
ZF può essere facilmente integrato con i tuoi progetti di Symfony, per esempio per un Twitter Chiama .
Altri suggerimenti
Ci sono molte librerie per estrarre il contenuto del testo da PDF. Con uno di questi, è quindi necessario creare un documento Lucene con il contenuto. Quelli più utili saranno quelli che già hanno l'integrazione Lucene.
Apache PDFBox puoi creare un documento Lucene direttamente da file PDF . Esso comprenderà campi di metadati PDF così come contenuto di testo.