Web ページをカールまたは wget するにはどうすればよいですか?

質問

stackoverflow ページを取得して前日のページとの差分を取得する夜間の cron ジョブを作成して、質問、回答、ランキングなどの変更概要を確認できるようにしたいと考えています。

残念ながら、これを機能させるための適切な Cookie などのセットを入手できませんでした。何か案は？

また、ベータ版が終了したら、ログインせずにステータスページにアクセスできるようになりますか?

解決

ステータスページはログインせずに利用できるようになりました (クリックログアウトそして試してみてください）。ベータ Cookie が無効になると、ユーザーとステータスページの間には何もなくなります。

wget の場合:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

他のヒント

そして、これが機能します...

カール -s --クッキーそば=。 https://stackoverflow.com/users

そして wget の場合:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

良いアイデア：）

wgetを使ったことがあると思います

--load-cookies (filename)

少し役立つかもしれませんが、ブラウザをより完全に模倣して適切なスパイダーを取得するには、Mechanize (Perl または Python で) のようなものを使用する方が簡単かもしれません。

Cookie を機能させる方法もわかりませんでしたが、ログアウト中にブラウザでステータスページにアクセスすることはできたので、stackoverflow が公開されたらこれは機能すると思います。

これは興味深いアイデアですが、基礎となる HTML コードの差分も取得しませんか?実際のコンテンツではなく HTML の差分が残ることを避ける戦略はありますか?

そして、これが機能します...

curl -s --cookie soba=. http://stackoverflow.com/users

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow