Выяснение того, как, когда Google выполнял последний обход
Вопрос
Я хотел бы узнать, какова текущая кэшированная копия Google большого набора страниц.Я думаю, мне нужно
- поищите в логах IP-адреса,
- проверьте, чтобы найти пользовательский агент "googlebot", затем
- экспортируйте список с указанием каждой страницы и времени ее последнего посещения.
Я предполагаю, что это могло бы быть задание cron, которое выполняется еженедельно.Если это правильно, как бы я написал сценарий?Если это неправильно, то какой был бы лучший способ?
Решение
Google уже предоставляет эту информацию через Карты сайтов Google.Я пользуюсь им последние три года - работает отлично.
Добавьте свой сайт в SiteMaps и разместите сгенерированный XML-файл SiteMap вашего сайта (Google для сайтов, предоставляющих это бесплатно) на своем веб-сервере, затем предоставьте Google сделать все остальное.В SiteMaps есть раздел, который называется Статистика обхода это дает вам то, что вы хотите.
Получите представление Google о вашем сайте и диагностируйте проблемы
Посмотрите, как Google сканирует и индексирует ваш сайт и узнайте о конкретных проблемах у нас возникли проблемы с доступом к нему.
Определите трафик по вашей ссылке и запросите
Просматривайте, классифицируйте и загружайте исчерпывающие данные о внутренних и внешних ссылках на ваш сайт с помощью новых инструментов отчетности о ссылках.Узнайте, какие Поисковые запросы Google привлекают трафик на ваш сайт, и посмотрите, как именно пользователи приходят на него.
Делитесь информацией о своем сайте
Расскажите нам о своих страницах с помощью Sitemaps:какие из них наиболее важны для вас и как часто они меняются.Вы также можете сообщить нам, как вы хотели бы, чтобы URL-адреса, которые мы индексируем, отображались .
Другие советы
В этом нет необходимости, вы можете выполнить служебный вызов Google для поиска кэшированной страницы, т. е.в поисках cache:stackoverflow.com, который включал в себя время и дату.Я не удивлюсь, если есть вызов api для выполнения этого более непосредственно (update: Поисковый API Google).
Последний доступ к Googlebot также можно получить бесплатно на некоторых веб-сайтах, таких как mypagerank.net или на панели инструментов Google.