我需要为很多网页编制索引,那里有哪些好的webcrawler实用程序?我最好选择.NET可以与之交谈的东西,但这不是一个显示器。

我真正需要的是我可以提供网站网址的内容。它将跟随每个链接并存储内容以进行索引。

有帮助吗?

解决方案

HTTrack - http://www.httrack.com/ - 是一款非常好的网站复印机。工作得很好。已经使用了很长时间。

Nutch是一个网络抓取工具(抓取工具是您正在寻找的程序类型) - http:/ /lucene.apache.org/nutch/ - 使用顶级搜索工具lucene。

其他提示

Crawler4j 是一个开源Java爬虫,它提供了一个用于抓取Web的简单界面。您可以在5分钟内设置多线程Web爬网程序。

您可以设置自己的过滤器来访问或不访问页面(URL),并根据您的逻辑为每个已爬网页面定义一些操作。

选择crawler4j的一些原因;

  1. 多线程结构,
  2. 您可以设置要抓取的深度,
  3. 它是基于Java的开源,
  4. 控制冗余链接(网址),
  5. 您可以设置要抓取的网页数
  6. 您可以设置要抓取的页面大小
  7. 足够的文档

Searcharoo.NET 包含一个抓取和索引内容的蜘蛛,以及一个使用它的搜索引擎。您应该能够找到绕过Searcharoo.Indexer.EXE代码的方法来捕获下载的内容,并从那里添加您自己的自定义代码......

这是非常基本的(所有源代码都包含在内,并在六篇CodeProject文章中进行了解释,最新的文章在这里 Searcharoo v6 ):蜘蛛遵循链接,图像映射,图像,服从ROBOTS指令,解析一些非HTML文件类型。它适用于单个网站(不是整个网站)。

Nutch / Lucene几乎肯定是一个更强大/商业级的解决方案 - 但我没有看过他们的代码。不确定你想要完成什么,但是你也看过 Microsoft Search Server Express 的?

免责声明:我是Searcharoo的作者;只是在这里提供它。

Sphider 非常好。它是PHP,但它可能会有所帮助。

我使用 Mozenda的Web Scraping软件。您可以轻松地抓取所有链接并获取所需的所有信息,这非常棒 钱的软件。

我还没有用过这个,但是这个看起来很有趣。作者从头开始编写并发布了他的做法。它的代码也可以下载。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top