我想了解谷歌当前缓存的大量页面的副本情况如何。我想我需要

  1. 在日志中查找 IP,
  2. 检查找到用户代理“googlebot”,然后
  3. 导出一个列表,其中显示每个页面以及上次访问的时间。

我想这可能是一个每周运行的 cron 作业。如果这是正确的,我将如何编写脚本?如果这是错误的,那么更好的方法是什么?

有帮助吗?

解决方案

谷歌已经通过以下方式提供了此信息 谷歌站点地图. 。我已经使用它三年了 - 效果很好。

将您的网站添加到 SiteMap,并将生成的网站 SiteMap XML(Google 提供免费提供此服务的网站)放在您的网络服务器上,然后让 Google 完成剩下的工作。站点地图中有一个部分称为 抓取统计数据 这会给你你想要的。

获取 Google 对您网站的看法并诊断问题

查看Google如何爬网和索引您的网站,并了解我们正在访问它的特定问题。

发现您的链接并查询流量

使用新的链接报告工具查看有关内部和外部链接的有关内部和外部链接的全面数据。找出哪个Google搜索查询将流量吸引到您的网站,并确切查看用户如何到达那里。

分享有关您网站的信息

告诉我们您使用站点地图的页面:哪些对您来说是最重要的,以及它们变化的频率。您还可以让我们知道您希望我们索引出现的URL。

其他提示

这不是必需的,您可以对 Google 进行服务调用来查找缓存的页面,即寻找 缓存:stackoverflow.com, ,其中包括时间和日期。如果有一个 api 调用可以更直接地执行此操作,我不会感到惊讶(更新: 谷歌搜索API).

最后的 Googlebot Access 也可以通过 mypagerank.net 或 Google 工具栏等网站免费找到。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top