Utilizzo di ExtractingRequestHandler di Solr CELL per indicizzare/estrarre file dai formati di pacchetto

https://stackoverflow.com/questions/4017200

26-09-2019
|

Domanda

Puoi usare ExtractingRequestHandler e Tika con uno qualsiasi dei formati di file compressi (zip, catrame, gz, ecc.) Per estrarre il contenuto per l'indicizzazione?

Sto inviando a Solr il file archived.tar utilizzando curl.ricciolo"http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true"-H 'Content-Type: Application/Ottet-Stream'-Data-binary"@/home/archived.tar "Il risultato che ottengo quando interrogio il documento è che i nomi dei file all'interno dell'archivio sono indicizzati come" body_texts ", ma il contenuto di tali file non viene estratto o incluso.Questo non è il comportamento che mi aspettavo.Rif:http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example.Quando invio 1 dei documenti effettivi all'interno dell'archivio utilizzando lo stesso comando Curl, il contenuto estratto viene quindi memorizzato nel campo "Body_Texts".Mi manca un passo per i file compressi?

Ho aggiunto tutte le dipendenze di estrazione come indicato da mat inhttp://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell e sono in grado di estrarre correttamente i dati da documenti MS Word, PDF, HTML.

Sto utilizzando le seguenti versioni della libreria.Solr 1.40, Solr Cell 1.4.1, con Tika Core 0.4

Dato tutto ciò che ho letto questa versione di Tika dovrebbe supportare l'estrazione di dati da tutti i file all'interno di un file compresso.Qualsiasi aiuto o suggerimento sarebbe apprezzato.

Soluzione

La risposta breve:Solr Cell 1.4.1 e Tika Core 0.6.

La risposta lunga:Dopo molti mal di testa sono riuscito a farlo funzionare.Risponderò sia per le persone che usano direttamente solr sia per le persone che usano solr con la libreria Ruby sunspot (che era il mio problema).

Ecco cosa ho fatto:Ho usato questo https://github.com/tomasc/sunspot_cell plugin per estendere le macchie solari e dargli la funzione di allegato.(Ignora questo passaggio se non stai utilizzando rubino/macchie solari)

La v1.4.1 funziona con file singoli ma non con file compressi, quindi ho dovuto esplorare un po'.Ho scaricato il codebase v1.4.1 da http://lucene.apache.org/solr/ e ho preso il dist/apache-solr-cell-1.4.1.jar, quindi ho dovuto eliminare le librerie Tika dal ramo 1.5 http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/.

Puoi scaricarli singolarmente oppure puoi utilizzare svn per effettuare il checkout del ramo

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

Oppure semplicemente controlla la cartella della libreria:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow