我正在尝试从经常更新的博客中收集数据,因此我只需使用一个way循环,其中包括urllib2.urlopen(“ http: example.com”),每5分钟刷新页面即可收集我想要的数据。

但是我注意到我没有这样做,这与我通过浏览器(例如Firefox)所看到的内容不同,并且在检查了Firefox的源代码和我从Python获得的同一页面之后,我发现WP超级缓存使我无法获得最新结果。

而且,即使我在Python代码中欺骗了标头,我仍然会获得相同的缓存页面。所以我想知道有没有通过WP超级缓存的方法?为什么Firefox中根本没有这样的超级缓存?

有帮助吗?

解决方案

您是否尝试使用一些无害数据更改URL?这样的事情:

import time
urllib2.urlopen("http:\example.com?time=%s" % int(time.time()))

它实际上会打电话 http:\example.com?time=1283872559. 。如果有问题,大多数缓存系统都会绕过缓存,或者这是不可思议的。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top