Существует ли какой-либо открытый, просто расширяемый веб-поисковик?

StackOverflow https://stackoverflow.com/questions/2085213

  •  21-09-2019
  •  | 
  •  

Вопрос

Я ищу решение для веб-сканера, которое может быть достаточно зрелым и может быть просто расширено.Меня интересуют следующие функции...или возможность расширить поисковый робот, чтобы соответствовать им:

  • отчасти просто для того, чтобы почитать ленты нескольких сайтов
  • отказаться от содержания этих сайтов
  • если на сайте есть архив, я бы хотел также просканировать и проиндексировать его
  • поисковый робот должен быть способен исследовать часть Интернета для меня, и он должен быть в состоянии решить, какие сайты соответствуют заданным критериям
  • должен быть в состоянии уведомить меня, если будут найдены вещи, возможно, соответствующие моему интересу
  • обходчик не должен уничтожать серверы, атакуя их слишком большим количеством запросов, он должен умно выполнять обход
  • поисковый робот должен быть устойчив к нестандартным сайтам и серверам

Все вышеперечисленное можно выполнять одно за другим без каких-либо больших усилий, но меня интересует любое решение, предоставляющее настраиваемый, расширяемый поисковый робот.Я слышал об Apache Nutch, но пока очень неуверен в этом проекте.Есть ли у вас опыт работы с этим?Можете ли вы порекомендовать альтернативные варианты?

Это было полезно?

Решение

Быстрый поиск по ГитХаб вырвало Анемон, фреймворк web spider, который, по-видимому, соответствует вашим требованиям - в частности, расширяемости.Написано на Ruby.
Надеюсь, все пройдет хорошо!

Другие советы

Я широко использовал Nutch, когда создавал индекс проекта с открытым исходным кодом для своего стартапа Krugle.Его трудно настроить, поскольку это довольно монолитный дизайн.Существует архитектура подключаемых модулей, но взаимодействие между подключаемыми модулями и системой является сложным и хрупким.

В результате этого опыта и потребности в чем-то более гибком я запустил проект Bixo - инструментарий для веб-майнинга. http://openbixo.org.

Подходит ли это для вас, зависит от взвешивания таких факторов, как:

  1. Сколько гибкости вам нужно (+)
  2. Насколько зрелой она должна быть (-)
  3. Нужна ли вам возможность масштабирования (+)
  4. Если вас устраивает Java / Hadoop (+)

Я от всей души рекомендую наследница.Это ОЧЕНЬ гибкий и, я бы сказал, наиболее проверенный в боях поисковик с открытым исходным кодом, поскольку именно его использует Internet Archive.

Вы должны быть в состоянии найти что-то, что соответствует вашим потребностям здесь.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top