是否存在任何开放的、可简单扩展的网络爬虫?
-
21-09-2019 - |
题
我正在寻找一个足够成熟并且可以简单扩展的网络爬虫解决方案。我对以下功能感兴趣...或扩展爬虫以满足它们的可能性:
- 部分只是为了阅读几个网站的提要
- 废弃这些网站的内容
- 如果该网站有存档,我也想对其进行爬网和索引
- 爬虫应该能够为我探索部分网络,并且应该能够决定哪些网站符合给定的标准
- 如果发现可能符合我兴趣的东西,应该能够通知我
- 爬虫不应该通过太多请求攻击服务器来杀死服务器,它应该聪明地进行爬行
- 爬虫应该能够抵御异常网站和服务器
上面的这些事情可以一一完成,不需要任何很大的努力,但我对任何提供可定制、可扩展爬虫的解决方案感兴趣。我听说过 Apache Nutch,但到目前为止对该项目非常不确定。你有这方面的经验吗?你能推荐替代方案吗?
其他提示
当我为我的 Krugle 初创公司构建开源项目索引时,我广泛使用了 Nutch。它是一个相当单一的设计,很难定制。有插件架构,但插件和系统之间的交互是棘手且脆弱的。
由于这段经验,并且需要更灵活的东西,我启动了 Bixo 项目 - 一个网络挖掘工具包。 http://openbixo.org.
它是否适合您取决于以下因素的权重:
- 您需要多少灵活性 (+)
- 应该成熟到什么程度(-)
- 是否需要扩展能力 (+)
- 如果您熟悉 Java/Hadoop (+)
我衷心推荐 继承人. 。它非常灵活,我认为它是经过最严格测试的免费开源爬虫,因为它是互联网档案馆使用的爬虫。
您应该能够找到适合您需求的东西 这里.
不隶属于 StackOverflow