どのように私はプログラム的にこのページ上の画像を得ることができますか？

https://stackoverflow.com/questions/1372750

21-09-2019
|

質問

URL http://www.fourmilab.ch/cgi-bin/Earthショー地球のライブマップます。

私はうまくアップ画像が示すように、私のブラウザ（FF）でこのURLを発行する場合。私は同じページをフェッチするために「wgetコマンド」をしようとする。しかし、私は失敗します！

ここで私が最初に試したものです。

wget -p http://www.fourmilab.ch/cgi-bin/Earth

思考は、おそらく他のすべてのフォームフィールドがあまりにも必要とされていることを、私は様々なフィールド値ダウン指摘し、次のURLを発行し、上記のページで「ソースの表示」を行った。

wget --post-data "opt=-p&lat=7°27'&lon=50°49'&ns=North&ew=East&alt=150889769&img=learth.evif&date=1&imgsize=320&daynight=-d" http://www.fourmilab.ch/cgi-bin/Earth

まだ画像！

缶が誰かが...ここで何が起こっているか教えてください？任意のCGIと「落とし穴」および/またはフォームPOSTベースwgetsはありますか？（本やオンラインリソース）は、そのような概念が説明されるだろうどこに？

解決

あなたはページのソースコードを検査する場合は、

、地球の画像が含まれているのimg内部とのリンクがあります。たとえばます：

<img 
 src="/cgi-bin/Earth?di=570C6ABB1F33F13E95631EFF088262D5E20F2A10190A5A599229" 
 ismap="ismap" usemap="#zoommap" width="320" height="320" border="0" alt="" />

「ディ」パラメータを与えることなく、あなただけではない画像そのもののために、この画像を参照して、Webページ全体を求めています。

編集：あなたはとにかく、受信したい地球の "一部" 'ディ' パラメータのエンコード、例えば試してください。

wget http://www.fourmilab.ch/cgi-bin/Earth?di=F5AEC312B69A58973CCAB756A12BCB7C47A9BE99E3DDC5F63DF746B66C122E4E4B28ADC1EFADCC43752B45ABE2585A62E6FB304ACB6354E2796D9D3CEF7A1044FA32907855BA5C8F

他のヒント

を使用する代わりに、POSTのGET。彼らは、バックグラウンドでのCGIプログラムのための完全に異なるです。

Ravadreに続き、

wget -p http://www.fourmilab.ch/cgi-bin/Earth

は、タグが含まれているXHTMLファイルをダウンロードします。

私はすべてが、imgタグを削除するにはXHTMLを編集し、脱出、別のwget -pコマンドを含むbashスクリプトにそれを回しましたか？そして=

私はこれを実行すると、私は14KBのファイルを持っているI名前を変更したearth.jpg

そうでもないのプログラムでの、私はそれをしなかったが、私はそれを行うことができると思います。

の方法

しかし@somedeveloperは、（それが時間に依存するので）、DI値が変更されるように

Guysは、ここで私は最終的にやったことです。私がいた（そして今でも思います）私がFirefoxを経由して閲覧したときに取得。同じユーザーエクスペリエンスを与えて... ...より良い方法のための第1のwget自体に画像を取得するものを期待して、このソリューションと完全に満足していません

#!/bin/bash

tmpf=/tmp/delme.jpeg
base=http://www.fourmilab.ch
liveurl=$(wget -O - $base/cgi-bin/Earth?opt=-p 2>/dev/null | perl -0777 -nle 'if(m@<img \s+ src \s* = \s* "(/cgi-bin/Earth\?di= .*? )" @gsix) { print "$1\n" }' )
wget -O $tmpf $base/$liveurl &>/dev/null

あなたがダウンロードしていることは、全体のHTMLページではなく画像です。あまりにも画像や他の要素をダウンロードするには、--page-requisites（そしておそらく--convert-links）パラメータ（複数可）を使用する必要があります。 /cgi-bin/下のURLへのアクセスを許可していません残念ながら、のrobots.txtののため、Wgetは/cgi-bin/の下に配置された画像をダウンロードしないであろう。私の知る限り、ロボットプロトコルを無効にするパラメータはありません。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow