Использование ExtakingRequestRequestHestHesthandhandhandhandhandhandler к индексу / извлечению файлов из форматов пакетов

StackOverflow https://stackoverflow.com/questions/4017200

Вопрос

Можете ли вы использовать ExtractingRequestHandhandler и Tika с любым из сжатых форматов файлов (zip, tar, gz и т. Д.), чтобы извлечь контент для индексации?

Я отправляю Solr Archived.tar файл, используя завиток. скручиватьсяhttp: // localhost: 8983 / Solr / Update / Extract? Lebalal.id = doc1 & fmap.content = body_texts & commit = true«-H» тип содержимого: приложение / октет-поток «--дата-двоичный» @ / home / archived.tar "Результат, который я получаю, когда я запрашиваю документ, заключается в том, что имена файлов внутри архива индексируются как« body_texts ", но содержание этих файлов не извлекается или включено. Это не поведение, которое я ожидал. Ref:http://www.lucidimagination.com/community/hear-from-the-experts/articles/content-extraction-tika# it.tika.example.Отказ Когда я отправляю 1 фактических документов внутри архива, используя одну и ту же команду curl, извлеченный контент, затем сохраняется в поле «Body_texts». Я упускаю шаг для сжатых файлов?

Я добавил все зависимости извлечения, как указано ковриком вhttp://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cell. И могу успешно извлечь данные из MS Word, PDF, HTML-документов.

Я использую следующие версии библиотеки. Solr 1.40, Solr Cell 1.4.1, с ядром Tika 0.4

Учитывая все, что я прочитал, эта версия Tika должна поддерживать извлечение данных из всех файлов в пределах сжатого файла. Любая помощь или предложения будут оценены.

Это было полезно?

Решение

Краткий ответ: Solr Cell 1.4.1 и Core Tika 0.6.

Долгий ответ: после многих головных болей я смог получить эту работу. Я отвечу на него обоими людьми, используя Solr напрямую, так и для людей, использующих Solr с помощью солнечного пятна библиотеки Ruby (которая была моей проблемой).

Вот что я сделал: я использовал это https://github.com/tomasc/sunspot_cell. Плагин для продления солнцезащитника и дать ему функцию вложения. (Игнорируйте этот шаг, если вы не используете Ruby / Sunspot)

V1.4.1 работает для отдельных файлов, но не с сжатыми файлами, поэтому мне пришлось немного исследовать. Я загрузил кодовую базу V1.4.1 из http://lucene.apache.org/solr/ и схватил Dist / Apache-Solr-Cell-1.4.1.jar, тогда мне пришлось вытащить библиотеки Tika из филиала 1.5 http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/.

Вы можете скачать каждый индивидуально, или вы можете использовать SVN, чтобы оформить филиал

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

Или просто оформить заказ библиотечной папки:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/
Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top