質問

Google がキャッシュした大量のページのコピーが現在どのようになっているのかを知りたいです。そうする必要があると思います

  1. ログで IP を調べます。
  2. ユーザーエージェント「googlebot」を確認してから、
  3. 各ページと最後にアクセスした日時を示すリストをエクスポートします。

これは毎週実行される cron ジョブである可能性があると思います。これが正しい場合、どのようにスクリプトを書けばよいでしょうか?これが間違っている場合、より良い方法は何でしょうか?

役に立ちましたか?

解決

Googleはすでに<のhref = "https://www.google.com/accounts/ServiceLogin?service=sitemaps&passive=true&nui=1&continue=https%3A%2F%2Fwww.google.com%2Fwebmasters%を経由して、この情報を提供します2Ftools%2F&フォロー= HTTPS%3A%2F%2Fwww.google.com%2Fwebmasters%2Ftools%2F&HL = EN」のrel = "nofollowをnoreferrer"> Googleサイトマップする。私は過去3年間のためにそれを使用している - 素晴らしい作品。

サイトマップにサイトを追加し、Googleは残りを行いましょう、あなたのWebサーバー上で(この自由を提供し、ウェブサイトをGoogle)あなたのサイトの生成サイトマップXMLを置きます。あなたが望むものをあなたに与えます。のクロールの統計情報のと呼ばれるマップ内のセクションがあります。

  

をあなたのサイトのGoogleの見解を取得し、診断の問題

     

Googleがあなたをクロールしてインデックスをどのように参照してください。   サイトや特定の問題について学びます   我々はそれにアクセスして抱えています。

     

のあなたのリンクとクエリトラフィックを発見

     

表示、分類、およびダウンロード   内部についての包括的なデータと   新しいとあなたのサイトへの外部リンク   リンクレポートツール。見つけるこれ   Googleの検索クエリはへのトラフィックをドライブ   あなたのサイト、および正確にどのようにユーザーを参照してください   そこに着きます。

     

のサイトについての情報を共有する

     

を使用してページを教えてください   サイトマップ:ものがほとんどです   あなたにとって重要とどのくらいの頻度彼ら   変化する。あなたはまた、私たちがどのように知らせることができます   あなたは私たちがインデックスにURLを希望します   表示されます。

他のヒント

これは必要ありません、あなたはすなわち、<のhref = "http://74.125.93.132/search?q=cache%3Astackoverflow.com&ie=を探して、キャッシュされたページを検索するためにGoogleにサービス呼び出しを行うことができますUTF-8&OE = UTF-8&AQ = T&RLS = org.mozilla:EN-US:&公式クライアント=のfirefox-」のrel = "nofollowをnoreferrer">キャッシュ:stackoverflow.com に、日付と時刻が含まれています。 Google検索:より直接的にこれを行うためのAPIコール(アップデートがあります場合、私は驚かないだろうAPI で)ます。

最後のGooglebotのアクセスもmypagerank.netのようないくつかのウェブサイトやGoogleツールバー経由で無料で見つけることができます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top