Googlebot non rispetta Robots.txt [chiuso]

https://stackoverflow.com/questions/463569

19-08-2019
|

Domanda

Per qualche motivo quando controllo lo Strumento per i Webmaster di Google "Analizza robots.txt" per vedere quali URL sono bloccati dal nostro file robots.txt, non è quello che mi aspetto. Ecco uno snippet dall'inizio del nostro file:

Sitemap: http://[omitted]/sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

Qualsiasi cosa nella cartella degli script è correttamente bloccata sia per Googlebot che per Mediapartners-Google. Vedo che i due robot stanno vedendo la direttiva corretta perché Googlebot dice che gli script sono bloccati dalla linea 7 mentre Mediapartners-Google è bloccato dalla linea 4. Eppure QUALUNQUE altro URL che ho inserito dagli URL non consentiti sotto il secondo utente -agent direttiva NON sono bloccate!

Mi chiedo se il mio commento o l'utilizzo di URL assoluti stiano rovinando le cose ...

Qualsiasi approfondimento è apprezzato. Grazie.

Soluzione

Il motivo per cui vengono ignorati è che hai l'URL completo nel file robots.txt per le voci Disallow mentre specifica non lo consente. (È necessario specificare solo percorsi relativi o percorsi assoluti utilizzando /). Prova quanto segue:

Sitemap: /sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: /Living/books/book-review-not-stupid.aspx
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

Per quanto riguarda la memorizzazione nella cache, google prova a ottenere una copia del file robots.txt ogni 24 ore in media.

Altri suggerimenti

Sono gli URL assoluti. robots.txt dovrebbe includere solo URI relativi; il dominio viene dedotto in base al dominio da cui è stato effettuato l'accesso a robots.txt.

È attivo da almeno una settimana e Google afferma che è stato scaricato l'ultima volta 3 ore fa, quindi sono sicuro che è recente.

Di recente hai apportato questa modifica al tuo file robots.txt? Nella mia esperienza sembra che Google memorizza nella cache quella roba per molto tempo.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow