寻找 Webzinc .NET、屏幕抓取、.NET 的 Web 自动化库的免费替代品 [关闭]
-
21-09-2019 - |
题
解决方案
建造机器人并不难,有很多书描述了这样做的通用算法(简单的谷歌搜索就会找到很多算法)。
从 .NET 的角度来看,它的要点是递归地:
下载页面 - 这是通过
HttpWebRequest
/HttpWebResponse
, , 或者WebClient
类。另外,您还可以使用新的 来自 CodePlex 的 WCF Web API, ,这是一个 广阔的 对上述内容的改进,专门用于生成/消费 REST 内容,它有效 奇妙地 用于爬行目的(主要是因为它的可扩展性)解析下载的内容-I 高度 推荐 Html 敏捷包 以及 菲兹勒 Html Agility Pack 的扩展。Html Agility Pack 将处理格式错误的 HTML,并允许您使用 XPath(或其子集)查询 HTML 元素。此外,fizzler 将允许您使用 CSS 选择器 如果你熟悉 在 jQuery 中使用它们.
一旦获得结构化格式的 HTML,请扫描该结构以查找与您相关的内容并对其进行处理。
扫描外部链接的结构化格式并将其放入要处理的队列中(无论您希望应用程序有什么限制,您都不会索引整个网络,不是吗?)。
获取队列中的下一个项目,然后再次重复该过程。
不隶属于 StackOverflow