Come curl o wget una pagina web?

https://stackoverflow.com/questions/2815

http
curl

08-06-2019
|

Domanda

Vorrei fare una nightly cron job che recupera mio stackoverflow pagina e nelle differenze, dal giorno precedente pagina, in modo da poter vedere un cambiamento riepilogo delle mie domande, risposte, classifica, ecc.

Purtroppo, non ho potuto ottenere il giusto set di cookie, ecc, per fare questo lavoro.Tutte le idee?

Inoltre, quando la beta è finita, la mia pagina di stato essere accessibile senza registrazione?

Soluzione

La tua pagina di stato è ora disponibile senza effettuare il login (clicca logout e provare).Quando i beta-cookie viene disattivato, non ci sarà nulla tra voi e la vostra pagina di stato.

Per wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

Altri suggerimenti

Da Mark Harrison

E qui la cosa funziona...

curl-s --cookie soba=. https://stackoverflow.com/users

E per wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

Bella idea :)

Presumo che hai usato wget s

--load-cookies (filename)

potrebbe aiutare un po', ma potrebbe essere più facile da usare qualcosa di simile a Meccanizzare (in Perl o python) per simulare un browser più completamente per ottenere un buon spider.

Non riuscivo a capire come ottenere i cookie per lavoro, ma sono stato in grado di ottenere il mio status di pagina nel browser mentre ero connesso, quindi immagino che questo sarà il lavoro una volta stackoverflow diventa pubblico.

Questa è un'idea interessante, ma non anche prendere i diff del sottostante codice html?Avete una strategia per evitare di finire con una differenza di html e non il contenuto?

E qui la cosa funziona...

curl -s --cookie soba=. http://stackoverflow.com/users

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow