什么是一个很好的Web爬虫工具[关闭]

题

我需要为很多网页编制索引，那里有哪些好的webcrawler实用程序？我最好选择.NET可以与之交谈的东西，但这不是一个显示器。

我真正需要的是我可以提供网站网址的内容。它将跟随每个链接并存储内容以进行索引。

解决方案

HTTrack - http://www.httrack.com/ - 是一款非常好的网站复印机。工作得很好。已经使用了很长时间。

Nutch是一个网络抓取工具（抓取工具是您正在寻找的程序类型） - http：/ /lucene.apache.org/nutch/ - 使用顶级搜索工具lucene。

其他提示

Crawler4j 是一个开源Java爬虫，它提供了一个用于抓取Web的简单界面。您可以在5分钟内设置多线程Web爬网程序。

您可以设置自己的过滤器来访问或不访问页面（URL），并根据您的逻辑为每个已爬网页面定义一些操作。

选择crawler4j的一些原因;

Searcharoo.NET 包含一个抓取和索引内容的蜘蛛，以及一个使用它的搜索引擎。您应该能够找到绕过Searcharoo.Indexer.EXE代码的方法来捕获下载的内容，并从那里添加您自己的自定义代码......

这是非常基本的（所有源代码都包含在内，并在六篇CodeProject文章中进行了解释，最新的文章在这里 Searcharoo v6 ）：蜘蛛遵循链接，图像映射，图像，服从ROBOTS指令，解析一些非HTML文件类型。它适用于单个网站（不是整个网站）。

Nutch / Lucene几乎肯定是一个更强大/商业级的解决方案 - 但我没有看过他们的代码。不确定你想要完成什么，但是你也看过 Microsoft Search Server Express 的？

免责声明：我是Searcharoo的作者;只是在这里提供它。

Sphider 非常好。它是PHP，但它可能会有所帮助。

我使用 Mozenda的Web Scraping软件。您可以轻松地抓取所有链接并获取所需的所有信息，这非常棒钱的软件。

我还没有用过这个，但是这个看起来很有趣。作者从头开始编写并发布了他的做法。它的代码也可以下载。

许可以下： CC-BY-SA 和归因