Domanda

sto cercando di raccogliere dati da un blog aggiornamento frequente, così ho semplicemente utilizzare un ciclo while che comprende urllib2.urlopen ( "http: \ example.com") per aggiornare la pagina ogni 5 minuti per raccogliere i dati da me ricercato.

Ma mi accorgo che non sto ottenendo il contenuto più recente in questo modo, è diverso da quello che vedo attraverso il browser come Firefox, e dopo aver verificato sia il codice sorgente di Firefox e la stessa pagina che ricevo da pitone, ho scoperto che si tratta di WP Super cache, che mi impedisce di ottenere il risultato più recente.

E ho ancora la stessa pagina cache anche se io spoof le intestazioni nel mio codice python. Così mi sorprende che ci sia un modo per dalla cache di Super Passo WP? E perché non esiste una cache di Super in Firefox a tutti?

È stato utile?

Soluzione

Hai provato a cambiare l'URL con alcuni dati innocui? Qualcosa di simile a questo:

import time
urllib2.urlopen("http:\example.com?time=%s" % int(time.time()))

Sarà effettivamente chiamare http:\example.com?time=1283872559. La maggior parte dei sistemi di caching consentirà di bypassare la cache se c'è un querystring o qualcosa E 'che non è previsto.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top