Pregunta

Me gustaría averiguar cómo copia en caché actual de Google de un gran conjunto de páginas es. Creo que necesito

  1. mirada en los registros de IP,
  2. comprobar para encontrar user-agent "googlebot", a continuación,
  3. exportar una lista que dice cada página y cuando fue visitado por última vez.

Me imagino que esto podría ser una tarea programada que se ejecuta semanalmente. Si esto es correcto, ¿cómo iba a escribir el guión? Si esto está mal, lo que sería una mejor manera?

¿Fue útil?

Solución

Google ya proporciona esta información a través de Google Sitemaps . Lo he usado durante los últimos tres años - funciona muy bien.

Añadir a su sitio Sitemaps y poner un SiteMap XML generados de su sitio (Google para los sitios web que ofrecen este libre) en su servidor web, a continuación, dejar que Google haga el resto. Hay una sección de Sitemaps llamado Estadísticas de rastreo que le da lo que quiere.

  

Obtener una vista de Google de su sitio y diagnosticar problemas

     

Vea cómo Google rastrea e indexa sus   sitio y aprender acerca de los problemas específicos   vamos a tener acceso a él.

     

Descubra su enlace y tráfico de consultas

     

Ver, clasificar y descargar   datos completos sobre interno y   enlaces externos a su sitio con el nuevo   herramientas de reporte enlace. Averiguar qué   Las consultas de búsqueda de Google a dirigir el tráfico   su sitio, y ver exactamente cómo los usuarios   llegar allí.

     

Compartir información sobre su sitio

     

Háblenos de sus páginas con   Mapas del sitio: cuáles son los más   importantes para usted y con qué frecuencia   cambio. También puede hacernos saber cómo   desea que el índice de direcciones URL que a   aparecerá.

Otros consejos

Eso no es necesario, se puede hacer una llamada de servicio a Google para buscar la página en caché, es decir, la búsqueda de caché: stackoverflow.com , que incluía la hora y la fecha. No me sorprendería si hay una llamada a la API para hacer esto de manera más directa (actualización: de búsqueda de Google API).

Ultimo acceso robot de Google también se puede encontrar de forma gratuita a través de algunos sitios web como mypagerank.net o la barra Google.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top