Googleが最後にクロールしたときの方法を調べる
質問
Google がキャッシュした大量のページのコピーが現在どのようになっているのかを知りたいです。そうする必要があると思います
- ログで IP を調べます。
- ユーザーエージェント「googlebot」を確認してから、
- 各ページと最後にアクセスした日時を示すリストをエクスポートします。
これは毎週実行される cron ジョブである可能性があると思います。これが正しい場合、どのようにスクリプトを書けばよいでしょうか?これが間違っている場合、より良い方法は何でしょうか?
解決
Googleはすでに<のhref = "https://www.google.com/accounts/ServiceLogin?service=sitemaps&passive=true&nui=1&continue=https%3A%2F%2Fwww.google.com%2Fwebmasters%を経由して、この情報を提供します2Ftools%2F&フォロー= HTTPS%3A%2F%2Fwww.google.com%2Fwebmasters%2Ftools%2F&HL = EN」のrel = "nofollowをnoreferrer"> Googleサイトマップする。私は過去3年間のためにそれを使用している - 素晴らしい作品。
サイトマップにサイトを追加し、Googleは残りを行いましょう、あなたのWebサーバー上で(この自由を提供し、ウェブサイトをGoogle)あなたのサイトの生成サイトマップXMLを置きます。あなたが望むものをあなたに与えます。のクロールの統計情報のと呼ばれるマップ内のセクションがあります。
をあなたのサイトのGoogleの見解を取得し、診断の問題の
Googleがあなたをクロールしてインデックスをどのように参照してください。 サイトや特定の問題について学びます 我々はそれにアクセスして抱えています。
のあなたのリンクとクエリトラフィックを発見
表示、分類、およびダウンロード 内部についての包括的なデータと 新しいとあなたのサイトへの外部リンク リンクレポートツール。見つけるこれ Googleの検索クエリはへのトラフィックをドライブ あなたのサイト、および正確にどのようにユーザーを参照してください そこに着きます。
の のサイトについての情報を共有する
を使用してページを教えてください サイトマップ:ものがほとんどです あなたにとって重要とどのくらいの頻度彼ら 変化する。あなたはまた、私たちがどのように知らせることができます あなたは私たちがインデックスにURLを希望します 表示されます。
他のヒント
これは必要ありません、あなたはすなわち、<のhref = "http://74.125.93.132/search?q=cache%3Astackoverflow.com&ie=を探して、キャッシュされたページを検索するためにGoogleにサービス呼び出しを行うことができますUTF-8&OE = UTF-8&AQ = T&RLS = org.mozilla:EN-US:&公式クライアント=のfirefox-」のrel = "nofollowをnoreferrer">キャッシュ:stackoverflow.com に、日付と時刻が含まれています。 Google検索:より直接的にこれを行うためのAPIコール(アップデートがあります場合、私は驚かないだろうAPI で)ます。
最後のGooglebotのアクセスもmypagerank.netのようないくつかのウェブサイトやGoogleツールバー経由で無料で見つけることができます。