除了正则表达式之外,还有其他方法可以进行屏幕抓取吗?

StackOverflow https://stackoverflow.com/questions/80834

  •  09-06-2019
  •  | 
  •  

我正在做一个个人的、只是为了好玩的项目,该项目使用屏幕抓取来给我一个系统托盘通知,以防 HTML 表格上的另一行被添加、修改或删除。

做完这件事之前我想:好吧,让我们继续讨论正则表达式,仅此而已,但作为一个好奇的人,让我认为可能还有其他东西可以有另一种范例,但使用起来很简单。

我了解 DOM 和 X-Path 以及所有 xml'ish 方法。我正在寻找一些开箱即用的东西,甚至可以在一组规则中定义的东西,这样你就可以制作一个插件系统来聚合各种站点。

有帮助吗?

解决方案

其他提示

这是一个想法:假设您的主要用例是在 HTML 文件更改时收到通知,为什么不使用标准 diff 工具,然后循环更改的行,应用您的规则?

另外,如果在这种情况下您可以访问服务器和您正在监视的文件,您也许可以使用 CVS(或类似的)将所有内容置于源代码控制下,然后只监视提交。如果您想对网络上的随机站点使用这种方法,只需编写一个脚本,定期下载相应 URL 的 html,然后将其提交到源代码管理并观察差异。

不是很实用,但又开箱即用。

如果您可以使用类似的方法将源代码转换为有效的 XHTML/XML SGML阅读器 或者 html整洁 那么你可以使用XSLT。只需为您想要抓取的每个站点创建一个 XSL 模板即可。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top