我遇到了这个 .NET 库:

http://www.webzinc.com/online/faq.aspx

但是,我想知道是否有免费的替代方案?

有帮助吗?

解决方案

建造机器人并不难,有很多书描述了这样做的通用算法(简单的谷歌搜索就会找到很多算法)。

从 .NET 的角度来看,它的要点是递归地:

  • 下载页面 - 这是通过 HttpWebRequest/HttpWebResponse, , 或者 WebClient 类。另外,您还可以使用新的 来自 CodePlex 的 WCF Web API, ,这是一个 广阔的 对上述内容的改进,专门用于生成/消费 REST 内容,它有效 奇妙地 用于爬行目的(主要是因为它的可扩展性)

  • 解析下载的内容-I 高度 推荐 Html 敏捷包 以及 菲兹勒 Html Agility Pack 的扩展。Html Agility Pack 将处理格式错误的 HTML,并允许您使用 XPath(或其子集)查询 HTML 元素。此外,fizzler 将允许您使用 CSS 选择器 如果你熟悉 在 jQuery 中使用它们.

  • 一旦获得结构化格式的 HTML,请扫描该结构以查找与您相关的内容并对其进行处理。

    • 扫描外部链接的结构化格式并将其放入要处理的队列中(无论您希望应用程序有什么限制,您都不会索引整个网络,不是吗?)。

    • 获取队列中的下一个项目,然后再次重复该过程。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top