寻找 Webzinc .NET、屏幕抓取、.NET 的 Web 自动化库的免费替代品 [关闭]

题

我遇到了这个 .NET 库：

但是，我想知道是否有免费的替代方案？

解决方案

建造机器人并不难，有很多书描述了这样做的通用算法（简单的谷歌搜索就会找到很多算法）。

从 .NET 的角度来看，它的要点是递归地：

下载页面 - 这是通过 HttpWebRequest/HttpWebResponse, ，或者 WebClient 类。另外，您还可以使用新的来自 CodePlex 的 WCF Web API, ，这是一个 广阔的 对上述内容的改进，专门用于生成/消费 REST 内容，它有效 奇妙地 用于爬行目的（主要是因为它的可扩展性）
解析下载的内容-I 高度推荐 Html 敏捷包以及菲兹勒 Html Agility Pack 的扩展。Html Agility Pack 将处理格式错误的 HTML，并允许您使用 XPath（或其子集）查询 HTML 元素。此外，fizzler 将允许您使用 CSS 选择器如果你熟悉在 jQuery 中使用它们.
一旦获得结构化格式的 HTML，请扫描该结构以查找与您相关的内容并对其进行处理。
- 扫描外部链接的结构化格式并将其放入要处理的队列中（无论您希望应用程序有什么限制，您都不会索引整个网络，不是吗？）。
- 获取队列中的下一个项目，然后再次重复该过程。

许可以下： CC-BY-SA 和归因