Mit Solr CELL ExtractingRequestHandler indizieren / Extrahieren von Dateien von Paketformaten

https://stackoverflow.com/questions/4017200

26-09-2019
|

Frage

Können Sie ExtractingRequestHandler und Tika mit einem die komprimierten Dateiformate (zip, tar, gz, usw.) sich die Inhalte für die Indizierung zu extrahieren?

Ich schicke solr der archived.tar Datei curl verwenden. curl " http: // localhost: 8983 / Solr / update / Extrakt ? literal.id = doc1 & fmap.content = body_texts & commit = true “ -H 'Content-type: application / octet-stream' --data-binary "@ / Home / archived.tar" Das Ergebnis, das ich erhalte, wenn ich das Dokument abfragen, besteht darin, dass die Dateinamen innerhalb der Archiv wird als die „body_texts“ indiziert, aber der Inhalt dieser Dateien ist nicht extrahiert oder enthalten. Dies ist nicht das Verhalten, das ich erwartet hatte. Ref: http: // www .lucidimagination.com / Community / Hear-from-the-Experts / Artikel / Inhalt-Extraction-Tika # article.tika.example . Wenn ich 1 der tatsächlichen Dokumente im Archiv senden die gleiche curl mit den extrahierten Inhalts Befehl wird dann in dem „body_texts“ Feld gespeichert. Am Ich fehlt ein Schritt für die komprimierten Dateien?

Ich habe alle die Extraktion Abhängigkeiten hinzugefügt, wie durch Matte angegeben in http://outoftime.lighthouseapp.com/projects/20339/tickets/98 -solr-Zelle und erfolgreich Daten aus MS Word, PDF, HTML-Dokumenten sind in der Lage zu extrahieren.

Ich verwende die folgenden Bibliotheksversionen. Solr 1,40, Solr Zelle 1.4.1, mit Tika Kern 0,4

Da alles habe ich diese Version von Tika lesen Extraktions unterstützen sollte Daten aus allen Dateien innerhalb einer komprimierten Datei. Jede Hilfe oder Anregungen würde geschätzt.

Lösung

Die kurze Antwort:. Solr Zelle 1.4.1 und Tika-Core 0,6

Die lange Antwort: Nach vielen Kopfschmerzen konnte ich diese Arbeit bekommen. Ich werde sie beantworten für beide Personen solr direkt und für Menschen mit der Ruby-Bibliothek sunspot mit solr (das war mein Problem).

Hier war das, was ich getan habe: Ich habe diese https://github.com/tomasc/sunspot_cell Plugin sunspot zu erweitern und das Befestigungsmerkmal geben. (Ignorieren Sie diesen Schritt, wenn Sie nicht mit Rubin / sunspot)

v1.4.1 Werke für einzelne Dateien, aber nicht mit komprimierten Dateien, also musste ich ein wenig erkunden. Ich habe die v1.4.1 Codebasis von http://lucene.apache.org/solr/ und griff die dist / apache-Solr-Zell-1.4.1.jar dann hatte ich die Tika Bibliotheken aus dem 1,5 Zweig nach unten zu ziehen, http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/ .

Sie können jeweils einzeln herunterladen, oder Sie können svn den Zweig zur Kasse von

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

oder nur die Bibliotheksordner Kasse:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow