Googlebot non rispetta Robots.txt [chiuso]
-
19-08-2019 - |
Domanda
Per qualche motivo quando controllo lo Strumento per i Webmaster di Google "Analizza robots.txt" per vedere quali URL sono bloccati dal nostro file robots.txt, non è quello che mi aspetto. Ecco uno snippet dall'inizio del nostro file:
Sitemap: http://[omitted]/sitemap_index.xml
User-agent: Mediapartners-Google
Disallow: /scripts
User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Qualsiasi cosa nella cartella degli script è correttamente bloccata sia per Googlebot che per Mediapartners-Google. Vedo che i due robot stanno vedendo la direttiva corretta perché Googlebot dice che gli script sono bloccati dalla linea 7 mentre Mediapartners-Google è bloccato dalla linea 4. Eppure QUALUNQUE altro URL che ho inserito dagli URL non consentiti sotto il secondo utente -agent direttiva NON sono bloccate!
Mi chiedo se il mio commento o l'utilizzo di URL assoluti stiano rovinando le cose ...
Qualsiasi approfondimento è apprezzato. Grazie.
Soluzione
Il motivo per cui vengono ignorati è che hai l'URL completo nel file robots.txt
per le voci Disallow
mentre specifica non lo consente. (È necessario specificare solo percorsi relativi o percorsi assoluti utilizzando /). Prova quanto segue:
Sitemap: /sitemap_index.xml
User-agent: Mediapartners-Google
Disallow: /scripts
User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: /Living/books/book-review-not-stupid.aspx
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Per quanto riguarda la memorizzazione nella cache, google prova a ottenere una copia del file robots.txt ogni 24 ore in media.
Altri suggerimenti
Sono gli URL assoluti. robots.txt dovrebbe includere solo URI relativi; il dominio viene dedotto in base al dominio da cui è stato effettuato l'accesso a robots.txt.
È attivo da almeno una settimana e Google afferma che è stato scaricato l'ultima volta 3 ore fa, quindi sono sicuro che è recente.
Di recente hai apportato questa modifica al tuo file robots.txt? Nella mia esperienza sembra che Google memorizza nella cache quella roba per molto tempo.