是否存在任何开放的、可简单扩展的网络爬虫？

题

我正在寻找一个足够成熟并且可以简单扩展的网络爬虫解决方案。我对以下功能感兴趣...或扩展爬虫以满足它们的可能性：

上面的这些事情可以一一完成，不需要任何很大的努力，但我对任何提供可定制、可扩展爬虫的解决方案感兴趣。我听说过 Apache Nutch，但到目前为止对该项目非常不确定。你有这方面的经验吗？你能推荐替代方案吗？

解决方案

快速搜索 GitHub 吐了海葵, ，一个网络蜘蛛框架，似乎适合您的要求 - 特别是可扩展性。用 Ruby 编写。
希望一切顺利！

其他提示

当我为我的 Krugle 初创公司构建开源项目索引时，我广泛使用了 Nutch。它是一个相当单一的设计，很难定制。有插件架构，但插件和系统之间的交互是棘手且脆弱的。

由于这段经验，并且需要更灵活的东西，我启动了 Bixo 项目 - 一个网络挖掘工具包。 http://openbixo.org.

它是否适合您取决于以下因素的权重：

我衷心推荐继承人. 。它非常灵活，我认为它是经过最严格测试的免费开源爬虫，因为它是互联网档案馆使用的爬虫。

您应该能够找到适合您需求的东西这里.

许可以下： CC-BY-SA 和归因