すべてのメディアを含むパブリック HTML ページを保存し、構造を保持する方法

質問

HTML モックアップをスクレイピングしてページの整合性を維持できる Linux アプリケーション (または Firefox 拡張機能) を探しています。Firefox はほぼ完璧な仕事をしますが、CSS で参照されている画像を取得しません。

Firefox の Scrabbook 拡張機能はすべてを取得しますが、ディレクトリ構造は平坦化されます。

すべてのフォルダーがインデックスページの子になったとしても、私はそれほど気にしません。

解決

wget --mirror –w 2 –p --HTML-extension –-convert-links http://www.yourdomain.com

他のヒント

やってみましたウィゲット？

wget -r 希望通りの動作をしてくれますが、そうでない場合でも、それを設定するためのフラグがたくさんあります。見る man wget.

別のオプションは curl, 、さらに強力です。見る http://curl.haxx.se/.

テレポートプロこの種のことに最適です。これを完全な Web サイトに指定すると、ディレクトリ構造を維持したコピーがローカルにダウンロードされ、必要に応じて絶対リンクが相対リンクに置き換えられます。他のサードパーティ Web サイトのコンテンツを元のサイトからリンクするかどうかも指定できます。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow