Web ページをカールまたは wget するにはどうすればよいですか?

StackOverflow https://stackoverflow.com/questions/2815

  •  08-06-2019
  •  | 
  •  

質問

stackoverflow ページを取得して前日のページとの差分を取得する夜間の cron ジョブを作成して、質問、回答、ランキングなどの変更概要を確認できるようにしたいと考えています。

残念ながら、これを機能させるための適切な Cookie などのセットを入手できませんでした。何か案は?

また、ベータ版が終了したら、ログインせずにステータス ページにアクセスできるようになりますか?

役に立ちましたか?

解決

ステータス ページはログインせずに利用できるようになりました (クリック ログアウト そして試してみてください)。ベータ Cookie が無効になると、ユーザーとステータス ページの間には何もなくなります。

wget の場合:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

他のヒント

から マーク・ハリソン

そして、これが機能します...

カール -s --クッキーそば=。 https://stackoverflow.com/users

そして wget の場合:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

良いアイデア :)

wgetを使ったことがあると思います

--load-cookies (filename)

少し役立つかもしれませんが、ブラウザをより完全に模倣して適切なスパイダーを取得するには、Mechanize (Perl または Python で) のようなものを使用する方が簡単かもしれません。

Cookie を機能させる方法もわかりませんでしたが、ログアウト中にブラウザでステータス ページにアクセスすることはできたので、stackoverflow が公開されたらこれは機能すると思います。

これは興味深いアイデアですが、基礎となる HTML コードの差分も取得しませんか?実際のコンテンツではなく HTML の差分が残ることを避ける戦略はありますか?

そして、これが機能します...

curl -s --cookie soba=. http://stackoverflow.com/users
ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top