Utilizando ExtractingRequestHandler de Solr CELULAR para indexar / extraer archivos de formatos de paquetes

https://stackoverflow.com/questions/4017200

26-09-2019
|

Pregunta

¿Se puede utilizar ExtractingRequestHandler y Tika con cualquiera de los formatos de archivos comprimidos (zip, tar, gz, etc.) para extraer el contenido a cabo para la indexación?

Estoy enviando el archivo Solr archived.tar utilizando rizo. rizo " http: // localhost: 8983 / Solr / actualizar / extracto ? literal.id = doc1 y fmap.content = body_texts y comprometerse = true " -H '-Tipo de contenido: aplicación / octet-stream' --Hojas-binario "@ / Home / archived.tar" El resultado que consigo cuando consultará el documento es que los nombres de los archivos dentro de la archivo se indexan como los "body_texts", pero el contenido de esos archivos es no se extrae o incluido. Este no es el comportamiento que esperaba. Árbitro: http: // www .lucidimagination.com / Comunidad / Hear-de-la-Expertos / Artículos / contenido-Extractor-Tika # article.tika.example . Cuando envío 1 de los documentos reales dentro del archivo utilizando el mismo rizo comandar el contenido extraído se almacena en el campo "body_texts". A.m Me falta un paso para los archivos comprimidos?

he añadido todas las dependencias de extracción como se indica por la estera en http://outoftime.lighthouseapp.com/projects/20339/tickets/98 -solr de células y soy capaz de extraer con éxito datos de MS Word, PDF, documentos HTML.

Estoy usando las siguientes versiones de las bibliotecas. Solr 1,40, Solr Cell 1.4.1, con Tika Core 0.4

Teniendo en cuenta todo lo que ha leído esta versión de Tika debe apoyar extracción datos de todos los archivos dentro de un archivo comprimido. Cualquier ayuda o sugerencia sería ser apreciado.

Solución

La respuesta corta:. Solr Cell 1.4.1 y Tika Core 0.6

La respuesta larga: Después de muchos dolores de cabeza que era capaz de conseguir este trabajo. Voy a responder que tanto para las personas que utilizan Solr directa y para las personas que utilizan Solr con la biblioteca de manchas solares Rubí (que era mi problema).

A continuación, fue lo que hice: He utilizado este https://github.com/tomasc/sunspot_cell plugin para extender de manchas solares y darle la característica de fijación. (Ignore este paso si no está utilizando el rubí / manchas solares)

Producción v1.4.1 para archivos individuales, pero no con archivos comprimidos, por lo que tuvieron que explorar un poco. He descargado el código base del v1.4.1 http://lucene.apache.org/solr/ y agarró la dist / de células apache-Solr-1.4.1.jar entonces tuvo que tirar hacia abajo las bibliotecas Tika desde el 1,5 rama http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/ .

Se puede descargar cada uno individualmente, o se puede utilizar SVN con el pago y envío por la rama

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

O simplemente obtener la carpeta de biblioteca:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow