Indexação e acessar arquivos odt no solr
Pergunta
Como posso postar, índice e pesquisar para o conteúdo de um arquivo odt armazenados em meu solr_home diretório?
Eu tentei entender e aplicar os abaixo mencionados páginas e um corpo de campo no esquema:
Indexação de texto e ficheiros html
Post Simples Ferramenta -Confluence
O resourcename campo contém a localização do ficheiro porém, o conteúdo do campo está em branco.Mas ainda não estou capaz de pesquisar o conteúdo do arquivo, mesmo que ele mostra que o arquivo está indexado e as alterações são confirmadas.Existe fim para fim de documentação para tal exigência.Eu estou usando o solr com o Tomcat em uma máquina linux.Eu sou um novato no solr e pode estar perdendo detalhes não mencionados nas páginas anteriores.
Solução
Use o Apache tika para extrair o conteúdo e enviá-lo para o SOLR
Tika tika = new Tika();
InputStream fileInputStream = new FileInputStream("d:\\fileName.odt");
Metadata metadata = new Metadata();
metadata.set(Metadata.RESOURCE_NAME_KEY, "fileName.odt");
String content = tika.parseToString(fileInputStream, metadata);
Alternativamente, também pode usar ExtractingRequestHandler
Outras dicas
Apache Tika foi obrigatório.Encontrei em apache tika download