如何卷曲或获取网页？

题

我想做一个每晚的 cron 作业来获取我的 stackoverflow 页面并将其与前一天的页面进行比较，这样我就可以看到我的问题、答案、排名等的更改摘要。

不幸的是，我无法获得正确的 cookie 等来完成这项工作。有任何想法吗？

另外，当测试版完成后，我的状态页面是否可以在不登录的情况下访问？

解决方案

您的状态页面现在无需登录即可使用（单击登出并尝试一下）。当 beta-cookie 被禁用时，您和您的状态页面之间就没有任何东西了。

对于 wget：

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

其他提示

这就是有效的方法......

卷曲-s --cookie荞麦面=。 https://stackoverflow.com/users

对于 wget：

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

好主意：）

我猜你用过 wget

--load-cookies (filename)

可能会有所帮助，但使用 Mechanize（Perl 或 Python）之类的东西来更全面地模仿浏览器以获得一个好的蜘蛛可能会更容易。

我也不知道如何让cookies工作，但是当我注销时，我能够在浏览器中访问我的状态页面，所以我认为一旦stackoverflow公开，这就会工作。

这是一个有趣的想法，但是您不会也了解底层 html 代码的差异吗？您是否有策略来避免最终出现 html 差异而不是实际内容？

这就是有效的方法......

curl -s --cookie soba=. http://stackoverflow.com/users

许可以下： CC-BY-SA 和归因