Существует ли какой-либо открытый, просто расширяемый веб-поисковик?
-
21-09-2019 - |
Вопрос
Я ищу решение для веб-сканера, которое может быть достаточно зрелым и может быть просто расширено.Меня интересуют следующие функции...или возможность расширить поисковый робот, чтобы соответствовать им:
- отчасти просто для того, чтобы почитать ленты нескольких сайтов
- отказаться от содержания этих сайтов
- если на сайте есть архив, я бы хотел также просканировать и проиндексировать его
- поисковый робот должен быть способен исследовать часть Интернета для меня, и он должен быть в состоянии решить, какие сайты соответствуют заданным критериям
- должен быть в состоянии уведомить меня, если будут найдены вещи, возможно, соответствующие моему интересу
- обходчик не должен уничтожать серверы, атакуя их слишком большим количеством запросов, он должен умно выполнять обход
- поисковый робот должен быть устойчив к нестандартным сайтам и серверам
Все вышеперечисленное можно выполнять одно за другим без каких-либо больших усилий, но меня интересует любое решение, предоставляющее настраиваемый, расширяемый поисковый робот.Я слышал об Apache Nutch, но пока очень неуверен в этом проекте.Есть ли у вас опыт работы с этим?Можете ли вы порекомендовать альтернативные варианты?
Другие советы
Я широко использовал Nutch, когда создавал индекс проекта с открытым исходным кодом для своего стартапа Krugle.Его трудно настроить, поскольку это довольно монолитный дизайн.Существует архитектура подключаемых модулей, но взаимодействие между подключаемыми модулями и системой является сложным и хрупким.
В результате этого опыта и потребности в чем-то более гибком я запустил проект Bixo - инструментарий для веб-майнинга. http://openbixo.org.
Подходит ли это для вас, зависит от взвешивания таких факторов, как:
- Сколько гибкости вам нужно (+)
- Насколько зрелой она должна быть (-)
- Нужна ли вам возможность масштабирования (+)
- Если вас устраивает Java / Hadoop (+)
Я от всей души рекомендую наследница.Это ОЧЕНЬ гибкий и, я бы сказал, наиболее проверенный в боях поисковик с открытым исходным кодом, поскольку именно его использует Internet Archive.
Вы должны быть в состоянии найти что-то, что соответствует вашим потребностям здесь.