Рекомендации по использованию инструмента для пауков с Lucene или Solr? [закрыто]

https://stackoverflow.com/questions/282654

08-07-2019
|

Вопрос

Что такое хороший сканер (паук) для использования с документами HTML и XML (локальными или сетевыми) и который хорошо работает в пространстве решений Lucene / Solr? Может быть на основе Java, но не обязательно.

Решение

На мой взгляд, это довольно существенная дыра, которая сдерживает широкое распространение Solr. Новый DataImportHandler является хорошим первым шагом для импорта структурированных данных, но для Solr нет хорошего конвейера приема документов. Nutch работает, но интеграция между Nutch Crawler и Solr несколько неуклюжа.
Я перепробовал все найденные сканеры с открытым исходным кодом, и ни один из них не интегрировался с Solr.
Следите за OpenPipeline и Apache Tika.

Другие советы

Я попробовал Nutch, но было очень сложно интегрироваться с Solr. Я бы посмотрел на Heritrix. Он имеет обширную систему плагинов, облегчающую интеграцию с Solr, и намного быстрее при сканировании. Он широко использует потоки для ускорения процесса.

Я предлагаю вам проверить Nutch , чтобы получить вдохновение:

Nutch - это программное обеспечение для веб-поиска с открытым исходным кодом. Он основан на Lucene Java, добавляя веб-особенности, такие как сканер, база данных графа ссылок, парсеры для HTML и других форматов документов и т. Д.

Также проверьте дроидов Apache [ http://incubator.apache.org/droids/] - это не простой фреймворк для паука / сканера / рабочего.

Он новый, и его пока не так просто использовать с полки (для запуска понадобится несколько настроек), но это хорошая вещь, за которой нужно следить.

Натч может быть вашим ближайшим соперником, но он не слишком гибкий.

Если вам нужно что-то большее, вам придется взломать собственный сканер. Это не так плохо, как кажется, у каждого языка есть веб-библиотеки, так что вам просто нужно подключить некоторый менеджер очередей задач с загрузчиком HTTP и анализатором HTML, это не так уж много работы. Скорее всего, вы можете обойтись без единого блока, поскольку сканирование в основном связано с полосой пропускания, а не с нагрузкой на процессор.

http://arachnode.net

C #, но создает файлы расходных индексов Lucene (Java и C #).

Кто-нибудь пробовал Xapian? Он выглядит намного быстрее, чем solr и написан на c ++.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow