Utilisation de ExtractingRequestHandler de Solr CELL pour indexer/extraire des fichiers à partir de formats de package

https://stackoverflow.com/questions/4017200

26-09-2019
|

Question

Pouvez-vous utiliser ExtractionRequestHandler et Tika avec l'un des formats de fichiers compressés (Zip, Tar, GZ, etc.) pour extraire le contenu pour l'indexation?

J'envoie solr le fichier archivé.tar en utilisant curl.boucler "http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true"-H 'Content-Type: application / octet-stream' --data-binary" @ / home / archived.tar "Le résultat que j'obtiens lorsque je demande le document est que les noms de fichiers à l'intérieur de l'archive sont indexés comme" Body_texts ", mais le contenu de ces fichiers n'est pas extrait ou inclus.Ce n'est pas le comportement auquel je m'attendais.Réf :http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example.Lorsque j’envoie 1 des documents réels à l’intérieur de l’archive en utilisant le même curl commande, le contenu extrait est ensuite stocké dans le champ « body_texts ».Suis Il me manque une étape pour les fichiers compressés ?

J'ai ajouté toutes les dépendances d'extraction comme indiqué par mat danshttp://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell et Je suis capable d’extraire avec succès des données de documents MS Word, PDF, HTML.

J'utilise les versions de bibliothèque suivantes.Solr 1.40, Solr Cell 1.4.1, avec Tika Core 0.4

Compte tenu de tout ce que j’ai lu, cette version de Tika devrait prendre en charge l’extraction données de tous les fichiers d’un fichier compressé.Toute aide ou suggestion être appréciés.

La solution

La réponse courte :Solr Cell 1.4.1 et Tika Core 0.6.

La réponse longue :Après beaucoup de maux de tête, j'ai réussi à faire fonctionner cela.Je vais y répondre à la fois pour les personnes utilisant solr directement et pour les personnes utilisant solr avec la tache solaire de la bibliothèque Ruby (ce qui était mon problème).

Voici ce que j'ai fait :J'ai utilisé ça https://github.com/tomasc/sunspot_cell plugin pour étendre la tache solaire et lui donner la fonction de pièce jointe.(Ignorez cette étape si vous n'utilisez pas Ruby/Sunspot)

La v1.4.1 fonctionne pour les fichiers individuels mais pas avec les fichiers compressés, j'ai donc dû explorer un peu.J'ai téléchargé la base de code v1.4.1 depuis http://lucene.apache.org/solr/ et j'ai récupéré le dist/apache-solr-cell-1.4.1.jar puis j'ai dû retirer les bibliothèques Tika de la branche 1.5 http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/.

Vous pouvez les télécharger individuellement ou utiliser svn pour extraire la branche en

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

Ou extrayez simplement le dossier de la bibliothèque :

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow