すべてのメディアを含むパブリック HTML ページを保存し、構造を保持する方法
-
09-06-2019 - |
質問
HTML モックアップをスクレイピングしてページの整合性を維持できる Linux アプリケーション (または Firefox 拡張機能) を探しています。Firefox はほぼ完璧な仕事をしますが、CSS で参照されている画像を取得しません。
Firefox の Scrabbook 拡張機能はすべてを取得しますが、ディレクトリ構造は平坦化されます。
すべてのフォルダーがインデックス ページの子になったとしても、私はそれほど気にしません。
解決
wget --mirror –w 2 –p --HTML-extension –-convert-links http://www.yourdomain.com
他のヒント
やってみました ウィゲット?
wget -r
希望通りの動作をしてくれますが、そうでない場合でも、それを設定するためのフラグがたくさんあります。見る man wget
.
別のオプションは curl
, 、さらに強力です。見る http://curl.haxx.se/.
テレポートプロ この種のことに最適です。これを完全な Web サイトに指定すると、ディレクトリ構造を維持したコピーがローカルにダウンロードされ、必要に応じて絶対リンクが相対リンクに置き換えられます。他のサードパーティ Web サイトのコンテンツを元のサイトからリンクするかどうかも指定できます。
所属していません StackOverflow