オフラインで閲覧できるように Web サイト全体をアーカイブするにはどうすればよいですか?
-
22-08-2019 - |
質問
実際、私たちは顧客のために、asp.net Web サイトの静的/アーカイブ コピーを何度も焼き付けてきました。私たちが使用したのは ウェブジップ これまでは、クラッシュやダウンロードしたページが正しく再リンクされないなどの問題が絶えませんでした。
基本的には、asp.net Web サイト上のすべてのもの (ページ、画像、ドキュメント、CSS など) の静的コピーをクロールしてダウンロードし、ダウンロードしたページをインターネット接続なしでローカルで閲覧できるように処理するアプリケーションが必要です (削除します)。リンク内の絶対 URL など)。バカの証拠は多ければ多いほど良い。これは非常に一般的で (比較的) 単純なプロセスのように思えますが、他のアプリケーションをいくつか試してみましたが、あまり印象に残りませんでした。
誰かが推奨するアーカイブ ソフトウェアを持っていますか?本当に簡単なプロセスを共有できる人はいますか?
解決
Windowsでは、楽しみがさらに広がるでしょう HTTrack.でも設定できるセットの速度ダウンロードができるポイントだけでサイトでもない設定です。
私の経験で良いツールおよび作業性に優れています。のうりHTTrack:
- オープンソースのライセンス
- 履歴書を止めダウンロード
- アップデートでき、既存のアーカイブ
- を設定することができま行うことができるものとします。積極的なのでダウンロードでない廃棄物お帯域幅の帯域幅のサイトです。
他のヒント
あなたは wgetのに使用することができます
wget -m -k -K -E http://url/of/web/site
<のhref = "HTTPSでにウェイバックマシンのダウンローダ:// githubの。 COM / hartator」のrel = "noreferrer"> hartator のは、シンプルで早いのが特長です。
[インターネットアーカイブする rel="noreferrer">の
sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000
のwget -r -k
...そして残りのオプションを検討します。私はあなたがこれらのガイドラインに従ってきました願っています: http://www.w3.orgすべてのリソースがGETリクエストで安全であるのでを/Protocols/rfc2616/rfc2616-sec9.htmlます。
私はちょうど使用します。wget -m <url>
あなたの顧客は、コンプライアンス上の問題のためにアーカイブされている場合は、コンテンツが認証されることができるようにしたいです。記載されているオプションは、単純な視聴のために細かいですが、彼らは法的に許容されません。その場合、あなたはタイムスタンプと電子署名を探しています。はるかに複雑あなたはそれを自分でやっている場合。私は、このような PageFreezer のようなサービスをお勧めしたい。
OS Xユーザーの場合、私はsitesuckerアプリケーションが見つかったことがわかりましたここが、何も設定しなくても、うまく機能するどのように深いそれがリンクをたどります。
私は今、数年前からHTTrackを使用してきました。それだけで罰金など、ページ間のリンク、のすべてを処理します。私の唯一の不満は、私は非常によく、サブサイトに制限され、それを維持するための良い方法を発見していないということです。例えば、私は、アーカイブするサイトwww.foo.com/steveがある場合、それはおそらくwww.foo.com/roweへのリンクやアーカイブすぎに従います。それ以外の場合は素晴らしいことです。高度な設定で信頼性の高います。