Frage

Ich habe Tausende von CVS und ich möchte nach den CVs suchen, die "Computerwissenschaft" als Hintergrund hat.

Ich habe also gegoogelt und lernte, dass Lucene diesen Job erledigt, und ich muss die Daten an Lucene füttern und es alle Dokumente indexiert.

Bei der Suche nach einem bestimmten Text (sagen Sie "Compuet Science"), ergeben Sie die CVs, die den Ergebnissen entsprechen.

Dafür muss ich MSWORD-93 / MSWORD-2007 / PDF in Text konvertieren und Lucene füttern.

Ich kann Text aus MSWORD2007-Dokumenten abrufen, aber ich kann mich nicht von MSword 2003 bekommen.

Es gibt viele PDF-Autoren, aber ich habe keine PDF-Reader-Bibliothek erhalten, die dies tut.

Bitte werfen Sie etwas Licht auf die PDF-Reader-Bibliothek und konvertieren Sie MS93-Dokumente auf Text oder lassen Sie mich bitte wissen, ob Alternativen für Lucene-Suche.

danke, vielen dank für antworten

War es hilfreich?

Lösung

Sie können apache solr oder direkt TIKA , um Text aus PDFs und MS Word zu extrahieren und zu indexieren.Beide sind Java-Projekte, aber Sie können ihren Server von PHP anrufen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top