我有几个网页在几个不同的网站,我想镜完全。这意味着,我需要图像,CSS等,并链接的需要被转换。这一功能将类似于使用火狐"保存网页为"和选择"的网页,完成"。我想名字的文件和相应的目录,作为明智的东西(例如myfavpage1.html,myfavpage1.dir)。

我没有对服务器的访问,他们不是我的网页。这里是一样的链接: 点击我!

更多一点的澄清...我有大约100页的,我想镜(许多来自较慢的服务器)中,我将cron'ing的工作Solaris10和倾倒的结果每隔一小时一桑巴山人民的看法。而且,是的,我们显然试图wget与几个不同的标志,但是我还没有得到结果,我看。因此,指GNU wget页是不是真的有帮助的。让我开始在那里我有一个简单的例子。

 wget --mirror -w 2 -p --html-extension --tries=3 -k -P stackperl.html "https://stackoverflow.com/tags/perl"

从此,我们应该看看 https://stackoverflow.com/tags/perl 一页stackper.html 文件的,如果我有标志的正确的。

有帮助吗?

解决方案

如果你只想在运行命令,并得到一个复制网站,使用的工具,其他人已经建议的,例如 wget, 卷毛, 或者一些GUI工具。我用我自己的个人的工具,我呼 webreaper (那不是窗户 WebReaper 虽然。有几个Perl的节目我知道有关,其中包括 webmirror 和其他几个人,你可以找到关于 支持.

如果你想要做到这一内部Perl程序的写作(由于你具有"perl"标签上你的答案),还有许多工具 支持 这可以帮助你,在每个步骤:

祝你好运,:)

其他提示

对于HTML版本的网站,您可以使用WinHTTrack - 一个免费的开源GPL程序。它将下拉您的页面,图形,文档,zip文件,电影等的预渲染版本......当然,由于这是一个镜像副本,任何动态后端代码(如数据库调用)都不再是动态的。

http://www.httrack.com/

就个人而言,上次我有这样做的冲动时,我写了一个python脚本,它制作了我的浏览器缓存的副本,然后手动访问了我希望镜像的所有页面。一个非常难看的解决方案,但它具有不触发任何一个的好处,“不要刮我的页面”。报警。感谢 Opera 的链接标签栏,“手动”下载数以万计的页面并不像你想象的那么难。

我会回应“它不清楚”。评论。您创建的这些网页/网站是否要在多台服务器上部署?如果是这样,请在HTML中使用相对引用,您应该没问题。或者,在您的网站上使用a并在每个网站上进行调整。但是,相对论真的是要走的路。

或者,您是说要下载网站(如Stack Overflow主页,perl.com等)以在您的计算机上安装本地副本?我同意丹尼尔 - 使用wget。

吉姆

我使用 WebReaper

你可以使用wget gnu工具,以抢整个网站是这样的:

wget -r -p -np -k URL

或者,如果使用perl,试试这些模块:

  • LWP::简单

  • WWW::机械化

如果wget很复杂或者你没有linuxbox,你可以随时使用WebZip

听起来你想要一个好的代理服务器提供的缓存功能。

也许看看像SQUID这样的东西?很确定它可以做到。

这更像是一个系统管理员类型的问题,而不是编程。

在大多数现代网站中,前端只讲述了故事的一小部分。无论用于剥离html,css和javascript的工具如何,您仍将缺少服务器中包含的核心功能。

或者你可能意味着别的东西。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top