我正在寻找一个足够成熟并且可以简单扩展的网络爬虫解决方案。我对以下功能感兴趣...或扩展爬虫以满足它们的可能性:

  • 部分只是为了阅读几个网站的提要
  • 废弃这些网站的内容
  • 如果该网站有存档,我也想对其进行爬网和索引
  • 爬虫应该能够为我探索部分网络,并且应该能够决定哪些网站符合给定的标准
  • 如果发现可能符合我兴趣的东西,应该能够通知我
  • 爬虫不应该通过太多请求攻击服务器来杀死服务器,它应该聪明地进行爬行
  • 爬虫应该能够抵御异常网站和服务器

上面的这些事情可以一一完成,不需要任何很大的努力,但我对任何提供可定制、可扩展爬虫的解决方案感兴趣。我听说过 Apache Nutch,但到目前为止对该项目非常不确定。你有这方面的经验吗?你能推荐替代方案吗?

有帮助吗?

解决方案

快速搜索 GitHub 吐了 海葵, ,一个网络蜘蛛框架,似乎适合您的要求 - 特别是可扩展性。用 Ruby 编写。
希望一切顺利!

其他提示

当我为我的 Krugle 初创公司构建开源项目索引时,我广泛使用了 Nutch。它是一个相当单一的设计,很难定制。有插件架构,但插件和系统之间的交互是棘手且脆弱的。

由于这段经验,并且需要更灵活的东西,我启动了 Bixo 项目 - 一个网络挖掘工具包。 http://openbixo.org.

它是否适合您取决于以下因素的权重:

  1. 您需要多少灵活性 (+)
  2. 应该成熟到什么程度(-)
  3. 是否需要扩展能力 (+)
  4. 如果您熟悉 Java/Hadoop (+)

我衷心推荐 继承人. 。它非常灵活,我认为它是经过最严格测试的免费开源爬虫,因为它是互联网档案馆使用的爬虫。

您应该能够找到适合您需求的东西 这里.

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top