Question

Je voudrais savoir comment la copie de Google actuelle en cache d'un grand nombre de pages est. Je pense que je dois

  1. regarder dans les journaux pour des adresses IP,
  2. vérifier pour trouver user-agent "Googlebot", puis
  3. exporter une liste qui dit chaque page et quand il a été la dernière visite.

J'imagine que cela pourrait être une tâche cron qui exécute toutes les semaines. Si cela est vrai, comment pourrais-je écrire le script? Si cela est faux, ce serait une meilleure façon?

Était-ce utile?

La solution

Google fournit déjà ces informations via Google Sitemaps . Je l'ai utilisé pour les trois dernières années - fonctionne très bien.

Ajoutez votre site à SiteMaps et mettre un XML SiteMap généré de votre site (Google pour les sites qui offrent ce gratuitement) sur votre serveur Web, puis laissez Google faire le reste. Il y a la section dans les sitemaps appelé Statistiques sur l'exploration qui vous donne ce que vous voulez.

  

Obtenir la vue de Google sur votre site et diagnostiquer les problèmes

     

Voyez comment Google explore et indexe vos   le site et en apprendre davantage sur des problèmes spécifiques   nous y accédant.

     

Découvrez votre lien et le trafic de requête

     

Voir, classer et télécharger   des données complètes sur interne et   des liens externes vers votre site avec une nouvelle   outils de reporting de lien. Découvrez quels   requêtes de recherche Google générer du trafic vers   votre site, et voir exactement comment les utilisateurs   arrive ici.

     

Partager des informations sur votre site

     

Parlez-nous de vos pages   Sitemaps: ceux qui sont les plus   important pour vous et à quelle fréquence   changement. Vous pouvez également nous faire savoir comment   vous souhaitez que les URL que nous indexons   apparaissent.

Autres conseils

Ce n'est pas nécessaire, vous pouvez faire un appel de service à Google pour consulter la page en cache, à savoir la recherche de cache: stackoverflow.com , qui comprenait l'heure et la date. Je ne serais pas surpris s'il y a un appel api à faire plus directement (mise à jour: Google Recherche API ).

Dernière Googlebot L'accès peut également être trouvé gratuitement via des sites comme mypagerank.net ou la barre d'outils Google.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top