Domanda

Sono uno sviluppatore di Symfony e il mio web server è Linux. Ho già utilizzare il plugin sfLucene.

Qual è il modo più semplice di file PDF indicizzazione per la ricerca su un server Linux PHP?

  1. XPDF , installato < a href = "http://www.kapustabrothers.com/2008/01/20/indexing-pdf-documents-with-zend_search_lucene/" rel = "nofollow noreferrer"> come questo
  2. Apache Tika tramite il SOLR sfLucene ramo plug
  3. Una terza opzione?

Grazie!

È stato utile?

Soluzione

Per chi proviene da uno sfondo Zend, mi raccomando generalmente utilizzando Zend_Search_Lucene. L'esempio XPDF è davvero dritto in avanti e sembra semplice. XPDF è concesso in licenza come GPL - se che misura il vostro bisogno, andare per 1 #

ZF può essere facilmente integrato con i tuoi progetti di Symfony, per esempio per un Twitter Chiama .

Altri suggerimenti

Ci sono molte librerie per estrarre il contenuto del testo da PDF. Con uno di questi, è quindi necessario creare un documento Lucene con il contenuto. Quelli più utili saranno quelli che già hanno l'integrazione Lucene.

Apache PDFBox puoi creare un documento Lucene direttamente da file PDF . Esso comprenderà campi di metadati PDF così come contenuto di testo.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top