Googleが最後にクロールしたときの方法を調べる

https://stackoverflow.com/questions/1827954

11-09-2019
|

質問

Google がキャッシュした大量のページのコピーが現在どのようになっているのかを知りたいです。そうする必要があると思います

ログで IP を調べます。
ユーザーエージェント「googlebot」を確認してから、
各ページと最後にアクセスした日時を示すリストをエクスポートします。

これは毎週実行される cron ジョブである可能性があると思います。これが正しい場合、どのようにスクリプトを書けばよいでしょうか?これが間違っている場合、より良い方法は何でしょうか?

解決

Googleはすでに<のhref = "https://www.google.com/accounts/ServiceLogin?service=sitemaps&passive=true&nui=1&continue=https%3A%2F%2Fwww.google.com%2Fwebmasters%を経由して、この情報を提供します2Ftools％2F＆フォロー= HTTPS％3A％2F％2Fwww.google.com％2Fwebmasters％2Ftools％2F＆HL = EN」のrel = "nofollowをnoreferrer"> Googleサイトマップする。私は過去3年間のためにそれを使用している - 素晴らしい作品。

サイトマップにサイトを追加し、Googleは残りを行いましょう、あなたのWebサーバー上で（この自由を提供し、ウェブサイトをGoogle）あなたのサイトの生成サイトマップXMLを置きます。あなたが望むものをあなたに与えます。のクロールの統計情報のと呼ばれるマップ内のセクションがあります。

をあなたのサイトのGoogleの見解を取得し、診断の問題の

Googleがあなたをクロールしてインデックスをどのように参照してください。   サイトや特定の問題について学びます   我々はそれにアクセスして抱えています。

のあなたのリンクとクエリトラフィックを発見

表示、分類、およびダウンロード   内部についての包括的なデータと   新しいとあなたのサイトへの外部リンク   リンクレポートツール。見つけるこれ   Googleの検索クエリはへのトラフィックをドライブ   あなたのサイト、および正確にどのようにユーザーを参照してください   そこに着きます。

ののサイトについての情報を共有する

を使用してページを教えてください   サイトマップ：ものがほとんどです   あなたにとって重要とどのくらいの頻度彼ら   変化する。あなたはまた、私たちがどのように知らせることができます   あなたは私たちがインデックスにURLを希望します   表示されます。

他のヒント

これは必要ありません、あなたはすなわち、<のhref = "http://74.125.93.132/search?q=cache%3Astackoverflow.com&ie=を探して、キャッシュされたページを検索するためにGoogleにサービス呼び出しを行うことができますUTF-8＆OE = UTF-8＆AQ = T＆RLS = org.mozilla：EN-US：＆公式クライアント=のfirefox-」のrel = "nofollowをnoreferrer">キャッシュ：stackoverflow.com に、日付と時刻が含まれています。 Google検索：より直接的にこれを行うためのAPIコール（アップデートがあります場合、私は驚かないだろうAPI で）ます。

最後のGooglebotのアクセスもmypagerank.netのようないくつかのウェブサイトやGoogleツールバー経由で無料で見つけることができます。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow