我怎么完全是镜像网页吗?

https://stackoverflow.com/questions/400935

03-07-2019
|

题

我有几个网页在几个不同的网站，我想镜完全。这意味着，我需要图像，CSS等，并链接的需要被转换。这一功能将类似于使用火狐"保存网页为"和选择"的网页，完成"。我想名字的文件和相应的目录，作为明智的东西(例如myfavpage1.html,myfavpage1.dir)。

我没有对服务器的访问，他们不是我的网页。这里是一样的链接：点击我！

更多一点的澄清...我有大约100页的，我想镜(许多来自较慢的服务器)中，我将cron'ing的工作Solaris10和倾倒的结果每隔一小时一桑巴山人民的看法。而且，是的，我们显然试图wget与几个不同的标志，但是我还没有得到结果，我看。因此，指GNU wget页是不是真的有帮助的。让我开始在那里我有一个简单的例子。

 wget --mirror -w 2 -p --html-extension --tries=3 -k -P stackperl.html "https://stackoverflow.com/tags/perl"

从此，我们应该看看 https://stackoverflow.com/tags/perl 一页stackper.html 文件的，如果我有标志的正确的。

解决方案

如果你只想在运行命令，并得到一个复制网站，使用的工具，其他人已经建议的，例如 wget, 卷毛, 或者一些GUI工具。我用我自己的个人的工具，我呼 webreaper (那不是窗户 WebReaper 虽然。有几个Perl的节目我知道有关，其中包括 webmirror 和其他几个人，你可以找到关于支持.

如果你想要做到这一内部Perl程序的写作(由于你具有"perl"标签上你的答案)，还有许多工具支持这可以帮助你，在每个步骤：

下载的内容： LWP：：简单, LWP::简, WWW：:机械化
链接提取： HTML::LinkExtor, HTML::SimpleLinkExtor
链接改写: HTML::分析器

祝你好运,:)

其他提示

对于HTML版本的网站，您可以使用WinHTTrack - 一个免费的开源GPL程序。它将下拉您的页面，图形，文档，zip文件，电影等的预渲染版本......当然，由于这是一个镜像副本，任何动态后端代码（如数据库调用）都不再是动态的。

http://www.httrack.com/

就个人而言，上次我有这样做的冲动时，我写了一个python脚本，它制作了我的浏览器缓存的副本，然后手动访问了我希望镜像的所有页面。一个非常难看的解决方案，但它具有不触发任何一个的好处，“不要刮我的页面”。报警。感谢 Opera 的链接标签栏，“手动”下载数以万计的页面并不像你想象的那么难。

我会回应“它不清楚”。评论。您创建的这些网页/网站是否要在多台服务器上部署？如果是这样，请在HTML中使用相对引用，您应该没问题。或者，在您的网站上使用a并在每个网站上进行调整。但是，相对论真的是要走的路。

或者，您是说要下载网站（如Stack Overflow主页，perl.com等）以在您的计算机上安装本地副本？我同意丹尼尔 - 使用wget。

吉姆

我使用 WebReaper

你可以使用wget gnu工具，以抢整个网站是这样的：

wget -r -p -np -k URL

或者，如果使用perl，试试这些模块：

LWP：：简单
WWW：:机械化

如果wget很复杂或者你没有linuxbox，你可以随时使用WebZip

听起来你想要一个好的代理服务器提供的缓存功能。

也许看看像SQUID这样的东西？很确定它可以做到。

这更像是一个系统管理员类型的问题，而不是编程。

在大多数现代网站中，前端只讲述了故事的一小部分。无论用于剥离html，css和javascript的工具如何，您仍将缺少服务器中包含的核心功能。

或者你可能意味着别的东西。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow