刮多帧网站

题

我正在审核我们现有的网络应用程序，该应用程序大量使用 HTML框架。我想在每个框架中下载所有HTML，有没有一种方法可以使用 wget 还是一点点脚本？

解决方案

作为史蒂夫答案的补充：

跨越任何主机＆＃8212;＆＃8216; -H＆＃8217;

＆＃8216; -H＆＃8217;选项打开主机跨越，从而允许Wget的递归运行访问链接引用的任何主机。除非应用了足够的递归限制标准，否则这些外部主机通常会链接到更多主机，依此类推，直到Wget最终吸收的数据超出您的预期。

限制跨越某些领域＆＃8212;＆＃8216; -D＆＃8217;

＆＃8216; -D＆＃8217;选项允许您指定将遵循的域，从而将递归限制为仅属于这些域的主机。显然，这只有与＆＃8216; -H＆＃8217;一起才有意义。

一个典型的例子是下载＆＃8216; www.server.com＆＃8217;的内容，但允许从＆＃8216; images.server.com＆＃8217;等下载：

      wget -rH -Dserver.com http://www.server.com/

您可以使用逗号分隔多个地址

e.g。＆＃8216; -Ddomain1.com，domain2.com＆＃8217 ;.

其他提示

wget --recursive --domains=www.mysite.com http://www.mysite.com

这表明递归爬网也应该遍历帧和iframe。请谨慎将递归范围仅限于您的网站，因为您可能不想抓取整个网站。

wget有一个-r选项让它递归，尝试 wget -r -l1 （如果字体难以阅读：最后一部分是小写L后跟一个数字一） -l1部分告诉它递归到最大深度为1.尝试使用这个数字来刮掉更多。

许可以下： CC-BY-SA 和归因