Wie rollt oder wget man eine Webseite?

https://stackoverflow.com/questions/2815

http
curl

08-06-2019
|

Frage

Ich möchte einen nächtlichen Cronjob erstellen, der meine Stackoverflow-Seite abruft und sie von der Seite des Vortages unterscheidet, damit ich eine Änderungszusammenfassung meiner Fragen, Antworten, Rangfolge usw. sehen kann.

Leider konnte ich nicht die richtigen Cookies usw. besorgen, damit dies funktioniert.Irgendwelche Ideen?

Wird meine Statusseite nach Abschluss der Beta auch ohne Anmeldung zugänglich sein?

Lösung

Ihre Statusseite ist jetzt ohne Anmeldung verfügbar (klicken Sie hier). Ausloggen und probieren Sie es aus).Wenn das Beta-Cookie deaktiviert ist, besteht nichts zwischen Ihnen und Ihrer Statusseite.

Für wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

Andere Tipps

Aus Mark Harrison

Und hier ist, was funktioniert...

curl -s --cookie soba=. https://stackoverflow.com/users

Und für wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

Gute Idee :)

Ich gehe davon aus, dass Sie Wgets verwendet haben

--load-cookies (filename)

Könnte ein wenig helfen, aber es könnte einfacher sein, etwas wie Mechanize (in Perl oder Python) zu verwenden, um einen Browser vollständiger nachzuahmen und eine gute Spinne zu erhalten.

Ich konnte auch nicht herausfinden, wie ich die Cookies zum Laufen bringen kann, aber ich konnte meine Statusseite in meinem Browser aufrufen, während ich abgemeldet war. Ich gehe also davon aus, dass dies funktionieren wird, sobald Stackoverflow öffentlich wird.

Das ist eine interessante Idee, aber würden Sie nicht auch Unterschiede zum zugrunde liegenden HTML-Code erkennen?Haben Sie eine Strategie, um zu vermeiden, dass am Ende ein Unterschied zwischen dem HTML und nicht dem eigentlichen Inhalt entsteht?

Und hier ist, was funktioniert...

curl -s --cookie soba=. http://stackoverflow.com/users

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow