Вопрос

Я пытаюсь собрать данные из часто обновляемого блога, поэтому просто использую цикл while, включающий urllib2.urlopen("http:\example.com"), чтобы обновлять страницу каждые 5 минут и собирать нужные мне данные.

Но я замечаю, что при этом я не получаю самый последний контент, он отличается от того, что я вижу через браузер, такой как Firefox, и после проверки исходного кода Firefox и той же страницы, которую я получаю от Python, я обнаружил, что это WP Super Cache, который не позволяет мне получить самый последний результат.

И я все равно получаю ту же страницу кэша, даже если подделываю заголовки в своем коде Python.Итак, мне интересно, есть ли способ обойти суперкеш WP?А почему в Firefox вообще нет такого суперкеша?

Это было полезно?

Решение

Пробовали ли вы изменить URL-адрес с помощью каких-нибудь безобидных данных?Что-то вроде этого:

import time
urllib2.urlopen("http:\example.com?time=%s" % int(time.time()))

Он на самом деле позвонит http:\example.com?time=1283872559.Большинство систем кэширования обходят кеш, если есть строка запроса или что-то неожиданное.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top