Question

Je suis en train de recueillir des données à partir d'un blog mise à jour fréquemment, donc j'utilise simplement une boucle while qui comprend urllib2.urlopen ( « http: \ example.com ») pour actualiser la page toutes les 5 minutes pour recueillir les données I voulait.

Mais je remarque que je ne reçois pas le contenu le plus récent en faisant cela, il est différent de ce que je vois via un navigateur tel que Firefox, et après avoir vérifié à la fois le code source de Firefox et la même page que je reçois de python, Je trouve que c'est WP super Cache qui me empêche de tirer le meilleur résultat récent.

Et je reçois toujours la même page de cache même si j'usurper les en-têtes dans mon code python. Alors, je me demande est-il un moyen par cache super passe WP? Et pourquoi tout il n'y a pas de cache super dans Firefox?

Était-ce utile?

La solution

Avez-vous essayé de changer l'URL avec des données inoffensives? Quelque chose comme ceci:

import time
urllib2.urlopen("http:\example.com?time=%s" % int(time.time()))

Il fait appel http:\example.com?time=1283872559. La plupart des systèmes de mise en cache contournent le cache s'il y a un querystring ou il est quelque chose qui ne devrait pas.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top