質問

私は既存の Web アプリケーションを監査しています。 HTMLフレーム. 。各フレーム内のすべての HTML をダウンロードしたいのですが、これを行う方法はありますか? ウィゲット それとも少しのスクリプト作成ですか?

役に立ちましたか?

解決

スティーブの答えへの追加として:

任意のホストにスパン - 「-H」

「-H」オプションはホスト スパンニングを有効にするため、Wget の再帰実行がリンクによって参照される任意のホストにアクセスできるようになります。十分な再帰制限基準が適用された深さでない限り、これらの外部ホストは通常​​、さらに多くのホストにリンクし、最終的に Wget が意図したよりも多くのデータを吸い込むまで続きます。

スパンを特定のドメインに制限する - 「-D」

「-D」オプションを使用すると、たどるドメインを指定できるため、再帰をこれらのドメインに属するホストのみに制限できます。明らかに、これは「-H」と組み合わせた場合にのみ意味を持ちます。

典型的な例は、「www.server.com」のコンテンツをダウンロードするが、「images.server.com」からのダウンロードを許可するなどです。

      wget -rH -Dserver.com http://www.server.com/

カンマで区切って複数のアドレスを指定できます。

例えば「-Ddomain1.com、domain2.com」。

から引用: wgetマニュアル

他のヒント

wget --recursive --domains=www.mysite.com http://www.mysite.com

これは、再帰的クロールがフレームと iframe もトラバースする必要があることを示しています。Web 全体をクロールしたくない可能性があるため、再帰の範囲を Web サイトのみに制限するように注意してください。

wget には再帰的にするための -r オプションがあります。試してみてください wget -r -l1 (フォントのせいで読みにくい場合:その最後の部分は、Lost Case Lに続いてナンバーワンです)-L1部分は、最大深度1に再発するように指示します。さらに多くの情報を収集するには、この数値を試してみてください。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top