すべてのメディアを含むパブリック HTML ページを保存し、構造を保持する方法

StackOverflow https://stackoverflow.com/questions/79612

質問

HTML モックアップをスクレイピングしてページの整合性を維持できる Linux アプリケーション (または Firefox 拡張機能) を探しています。Firefox はほぼ完璧な仕事をしますが、CSS で参照されている画像を取得しません。

Firefox の Scrabbook 拡張機能はすべてを取得しますが、ディレクトリ構造は平坦化されます。

すべてのフォルダーがインデックス ページの子になったとしても、私はそれほど気にしません。

役に立ちましたか?

解決

見る wget を使用した Web サイトミラーリング

wget --mirror –w 2 –p --HTML-extension –-convert-links http://www.yourdomain.com

他のヒント

やってみました ウィゲット?

wget -r 希望通りの動作をしてくれますが、そうでない場合でも、それを設定するためのフラグがたくさんあります。見る man wget.

別のオプションは curl, 、さらに強力です。見る http://curl.haxx.se/.

テレポートプロ この種のことに最適です。これを完全な Web サイトに指定すると、ディレクトリ構造を維持したコピーがローカルにダウンロードされ、必要に応じて絶対リンクが相対リンクに置き換えられます。他のサードパーティ Web サイトのコンテンツを元のサイトからリンクするかどうかも指定できます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top