Domanda

Mi piacerebbe scoprire come copia cache corrente di Google di un grande insieme di pagine è. Penso di aver bisogno di

  1. sguardo nei registri per IP,
  2. controllare per trovare user-agent "Googlebot", quindi
  3. esportare un elenco che dice ogni pagina e, quando è stata l'ultima visita.

Immagino che questo potrebbe essere un job cron che viene eseguito ogni settimana. Se questo è giusto, come faccio a scrivere la sceneggiatura? Se questo è sbagliato, che cosa sarebbe un modo migliore?

È stato utile?

Soluzione

Google fornisce già queste informazioni tramite Google Sitemaps . L'ho usato per gli ultimi tre anni - grandi opere.

Aggiungi il tuo sito a SiteMaps e mettere un XML SiteMap generata del vostro sito (Google per i siti web che forniscono questo gratuitamente) sul server web, poi lasciare che Google faccia il resto. V'è la sezione in SiteMaps chiamato Crawl Statistiche che ti dà ciò che si desidera.

  

punto di vista di Google del tuo sito e diagnosticare i problemi

     

Scopri come Google scansiona e indicizza i tuoi   sito e conoscere i problemi specifici   stiamo avendo accedervi.

     

Scopri il tuo link e il traffico di query

     

Visualizza, classificare e scaricare   dati completi circa interno e   link esterni al tuo sito con il nuovo   strumenti di reporting di collegamento. Scopri quali   Google query di ricerca per indirizzare il traffico   il vostro sito, e vedere esattamente come gli utenti   arrivare là.

     

Condividi informazioni sul tuo sito

     

Parlaci delle tue pagine con   Sitemaps: quali sono i più   importante per voi e quanto spesso   modificare. Si può anche farci sapere come   si desidera l'indice URL dobbiamo   apparire.

Altri suggerimenti

Non è necessario, si può fare una chiamata di servizio a Google per cercare la pagina memorizzata nella cache, vale a dire la ricerca di la cache: stackoverflow.com , che comprendeva l'ora e la data. Non sarei sorpreso se c'è una chiamata API per fare questo in modo più diretto (aggiornamento: Google Search API ).

Ultimo Googlebot L'accesso può essere trovato anche gratuitamente tramite alcuni siti web come mypagerank.net o la barra degli strumenti di Google.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top