Индексирование и доступ к файлам ODT в Solr

https://stackoverflow.com//questions/22068531

23-12-2019
|

Вопрос

Как я могу опубликовать, индекс и поиск контента в файле ODT, хранящийся в моем каталоге Solr_home?

Я попробовал понять и применять указанные ниже страницы и включил поле тела в схеме:

Простой почтовый инструмент -Consfluence

Поле ResourceName содержит местоположение файла, но поле Content является пустым. Но я все еще не могу искать содержимое файла, даже если он показывает, что файл проиндексирован, и изменения преданы. Есть ли конец для завершения документации для такого требования. Я использую Solr с Tomcat на машине Linux. Я новичок в Solr и может отсутствовать детали, не упомянутые на вышеуказанных страницах.

Решение

Используйте Apache Tika для извлечения содержимого и отправить его на Solr

Tika tika = new Tika();
InputStream fileInputStream = new FileInputStream("d:\\fileName.odt");
Metadata metadata = new Metadata();
metadata.set(Metadata.RESOURCE_NAME_KEY, "fileName.odt");

String content = tika.parseToString(fileInputStream, metadata);

В качестве альтернативы вы также можете использовать ExtastryCrequestHesthandler

Другие советы

Apache Tika требовался.Нашел его в Apache Tika Скачать

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow