Usando o ExtractingRequestHandler da Solr Cell para indexar/extrair arquivos dos formatos de pacotes

https://stackoverflow.com/questions/4017200

26-09-2019
|

Pergunta

Você pode usar o ExtractingRequestHandler e o Tika com qualquer um dos formatos de arquivo compactado (ZIP, TAR, GZ, etc) para extrair o conteúdo para indexação?

Estou enviando o arquivo Solr o Arquivado.tar usando o CURL. ondulação "http: // localhost: 8983/solr/update/extract? literal.id = doc1 & fmap.content = body_texts & commit = true"-H 'Tipo de Conteúdo: Aplicativo/Octet-Stream'-Data-Binária"@/Home/Archived.tar "O resultado que recebo quando consultar o documento é que os nomes dos arquivos dentro do arquivo são indexados como" body_texts ", mas o conteúdo desses arquivos não é extraído ou incluído. Este não é o comportamento que eu esperava. Ref:http://www.lucidimaginação.com/community/hear-from-the-experts/articles/content-extraction-tika#article.tika.example. Quando envio 1 dos documentos reais dentro do arquivo usando o mesmo comando Curl, o conteúdo extraído é então armazenado no campo "Body_Texts". Estou perdendo um passo para os arquivos compactados?

Eu adicionei todas as dependências de extração, conforme indicado por Mat emhttp://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell E sou capaz de extrair com sucesso dados de documentos MS Word, PDF e HTML.

Estou usando as seguintes versões da biblioteca. Solr 1.40, Solr Cell 1.4.1, com Tika Core 0.4

Dado tudo o que li esta versão do Tika, deve suportar dados de extração de todos os arquivos dentro de um arquivo compactado. Qualquer ajuda ou sugestão seria apreciada.

Solução

A resposta curta: Solr Cell 1.4.1 e Tika Core 0.6.

A resposta longa: depois de muitas dores de cabeça, consegui fazer isso funcionar. Vou responder para ambas as pessoas usando o Solr diretamente e para pessoas que usam Solr com a mancha solar da Biblioteca Ruby (que era o meu problema).

Aqui estava o que eu fiz: usei isso https://github.com/tomasc/sunspot_cell Plug -in para estender a mancha solar e fornecer o recurso de anexo. (Ignore esta etapa se você não estiver usando rubi/mancha solar)

v1.4.1 funciona para arquivos individuais, mas não com arquivos compactados, então tive que explorar um pouco. Eu baixei a base de código v1.4.1 de http://lucene.apache.org/solr/ e peguei o Dist/Apache-Solr-Cell-1.4.1.jar, então eu tive que puxar as bibliotecas Tika da filial 1.5 http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/.

Você pode baixar cada um individualmente, ou pode usar o SVN para verificar a filial por

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

Ou apenas consulte a pasta da biblioteca:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow