Googlebot ne respecte pas Robots.txt [fermé]

https://stackoverflow.com/questions/463569

19-08-2019
|

Question

Pour une raison quelconque, lorsque je consulte l'outil "Analyze robots.txt" de Google Webmaster Tool, pour voir quelles URL sont bloquées par notre fichier robots.txt, ce n'est pas ce à quoi je m'attendais. Voici un extrait du début de notre fichier:

Sitemap: http://[omitted]/sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

Tous les éléments du dossier des scripts sont correctement bloqués pour Googlebot et Mediapartners-Google. Je peux voir que les deux robots voient la directive correcte, car Googlebot indique que les scripts sont bloqués à partir de la ligne 7, tandis que Mediapartners-Google est bloqué à partir de la ligne 4. Et pourtant, TOUTE autre URL que j'ai insérée à partir des URL non autorisées du deuxième utilisateur La directive -agent n'est PAS bloquée!

Je me demande si mon commentaire ou l'utilisation d'URL absolus font foirer les choses ...

Toute idée est appréciée. Merci.

La solution

La raison pour laquelle ils sont ignorés est que vous avez l'URL qualifiée complète dans le fichier robots.txt pour les entrées Disallow , tandis que La spécification ne le permet pas. (Vous ne devez spécifier que des chemins relatifs ou des chemins absolus avec /). Essayez ce qui suit:

Sitemap: /sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: /Living/books/book-review-not-stupid.aspx
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

En ce qui concerne la mise en cache, Google tente de récupérer une copie du fichier robots.txt toutes les 24 heures en moyenne.

Autres conseils

Ce sont les URL absolues. Le fichier robots.txt est supposé inclure uniquement les URI relatifs; le domaine est déduit en fonction du domaine à partir duquel le fichier robots.txt a été utilisé.

Cela fait au moins une semaine et Google indique que le téléchargement a eu lieu il y a 3 heures, donc je suis sûr que c'est récent.

Avez-vous récemment apporté cette modification à votre fichier robots.txt? D'après mon expérience, il semble que que Google mette en cache ce contenu pendant très longtemps.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow