Wie rollt oder wget man eine Webseite?
Frage
Ich möchte einen nächtlichen Cronjob erstellen, der meine Stackoverflow-Seite abruft und sie von der Seite des Vortages unterscheidet, damit ich eine Änderungszusammenfassung meiner Fragen, Antworten, Rangfolge usw. sehen kann.
Leider konnte ich nicht die richtigen Cookies usw. besorgen, damit dies funktioniert.Irgendwelche Ideen?
Wird meine Statusseite nach Abschluss der Beta auch ohne Anmeldung zugänglich sein?
Lösung
Ihre Statusseite ist jetzt ohne Anmeldung verfügbar (klicken Sie hier). Ausloggen und probieren Sie es aus).Wenn das Beta-Cookie deaktiviert ist, besteht nichts zwischen Ihnen und Ihrer Statusseite.
Für wget:
wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Andere Tipps
Aus Mark Harrison
Und hier ist, was funktioniert...
curl -s --cookie soba=. https://stackoverflow.com/users
Und für wget:
wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Gute Idee :)
Ich gehe davon aus, dass Sie Wgets verwendet haben
--load-cookies (filename)
Könnte ein wenig helfen, aber es könnte einfacher sein, etwas wie Mechanize (in Perl oder Python) zu verwenden, um einen Browser vollständiger nachzuahmen und eine gute Spinne zu erhalten.
Ich konnte auch nicht herausfinden, wie ich die Cookies zum Laufen bringen kann, aber ich konnte meine Statusseite in meinem Browser aufrufen, während ich abgemeldet war. Ich gehe also davon aus, dass dies funktionieren wird, sobald Stackoverflow öffentlich wird.
Das ist eine interessante Idee, aber würden Sie nicht auch Unterschiede zum zugrunde liegenden HTML-Code erkennen?Haben Sie eine Strategie, um zu vermeiden, dass am Ende ein Unterschied zwischen dem HTML und nicht dem eigentlichen Inhalt entsteht?
Und hier ist, was funktioniert...
curl -s --cookie soba=. http://stackoverflow.com/users