我只是想知道你的意见是关于如何指纹/验证html/链的结构。

这个问题我要解决的问题是:指纹例如10个不同的网站,html网页。和一段时间后,我想有可能性,以验证他们,所以,如果网站已经改变,链接改变、核查的失败,否者核查的成功。我的基本想法是以分析链结构的分裂在一些方法,这样做的某种树,并从树上产生某种代码。但我仍然在讨论阶段,在那里,我需要讨论这个人,知道其他的想法。

因此,任何想法、算法和建议将是有用的。

有帮助吗?

解决方案

任何数据或结构你打算的散列,总结和其他的指纹,以确保考虑到各种形式的噪声在许多网站的"有"。

例如噪音或随机的内容是:

  • 公司股票价值的股票
  • 天气条件无论在城市的他们是
  • 几页有一个当前(现在)的日期时间的某个地方在脚注或者头
  • 广告内容(更多的和更多的这些都是使土着看到现场打败阻滞剂广告上网浏览器)

其他提示

您总是可以散列网站的原始HTML和进行比较。我认为网站可以保持“最后编辑”的日期,但我不知道这是否会更新。

编辑:我的错误,这简直就是给网站到以前的版本进行比较的方式,但没有真正指纹它你的意思的方式

刚引发此在那里:

你为什么不抓取网站,把所有的链接到这将是该网站的地图的XML文档。

上创建该文件中的MD5校验和存储它。然后,在未来的任何时间,你可以重新抓取,重新创建XML,重新校验和比较,你刚才校验。

如果它们不匹配,链接结构发生了变化 - 虽然你不一定会知道

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top