Pergunta

Como posso postar, índice e pesquisar para o conteúdo de um arquivo odt armazenados em meu solr_home diretório?

Eu tentei entender e aplicar os abaixo mencionados páginas e um corpo de campo no esquema:

Indexação de texto e ficheiros html

Post Simples Ferramenta -Confluence

O resourcename campo contém a localização do ficheiro porém, o conteúdo do campo está em branco.Mas ainda não estou capaz de pesquisar o conteúdo do arquivo, mesmo que ele mostra que o arquivo está indexado e as alterações são confirmadas.Existe fim para fim de documentação para tal exigência.Eu estou usando o solr com o Tomcat em uma máquina linux.Eu sou um novato no solr e pode estar perdendo detalhes não mencionados nas páginas anteriores.

Foi útil?

Solução

Use o Apache tika para extrair o conteúdo e enviá-lo para o SOLR

Tika tika = new Tika();
InputStream fileInputStream = new FileInputStream("d:\\fileName.odt");
Metadata metadata = new Metadata();
metadata.set(Metadata.RESOURCE_NAME_KEY, "fileName.odt");

String content = tika.parseToString(fileInputStream, metadata);

Alternativamente, também pode usar ExtractingRequestHandler

Outras dicas

Apache Tika foi obrigatório.Encontrei em apache tika download

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top