質問

頻繁に更新するブログからデータを収集しようとしているので、urllib2.urlopen( "http: example.com")を含む時間ループを使用して、5分ごとにページを更新して必要なデータを収集します。

しかし、私はこれを行うことによって最新のコンテンツを取得していないことに気づきました。それはFirefoxなどのブラウザを介して見られるものとは異なり、FirefoxのソースコードとPythonから得た同じページの両方をチェックした後、私はそれがわかりました。 WPスーパーキャッシュは、最新の結果を得るのを妨げています。

Pythonコードでヘッダーを押し上げても、同じキャッシュページを取得します。それで、WPスーパーキャッシュに合格する方法があるのだろうか?そして、なぜFirefoxにそのようなスーパーキャッシュがまったくないのですか?

役に立ちましたか?

解決

無害なデータでURLを変更してみましたか?このようなもの:

import time
urllib2.urlopen("http:\example.com?time=%s" % int(time.time()))

実際に呼び出します http:\example.com?time=1283872559. 。ほとんどのキャッシュシステムは、クエリストリングがある場合、または予想されていないものである場合、キャッシュをバイパスします。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top