Comment mettre en place un robot.txt qui autorise uniquement la page par défaut d'un site
-
09-06-2019 - |
Question
Disons que j'ai un site sur http://exemple.com.J'aimerais vraiment permettre aux robots de voir la page d'accueil, mais toute autre page doit être bloquée car il est inutile de la parcourir.Autrement dit
http://exemple.com & http://exemple.com/ devrait être autorisé, maishttp://example.com/anything et http://example.com/someendpoint.aspx devrait être bloqué.
De plus, ce serait formidable si je pouvais autoriser le passage de certaines chaînes de requête vers la page d'accueil :http://exemple.com?okparam=true
La solution
Ainsi, après quelques recherches, voici ce que j'ai trouvé - une solution acceptable par les principaux moteurs de recherche : Google , Yahoo & msn (je pourrais trouver un validateur ici) :
User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$
L'astuce consiste à utiliser le $ pour marquer la fin de l'URL.
Autres conseils
Outils pour les webmasters de Google rapport que l'interdiction a toujours priorité sur l'autorisation, il n'y a donc pas de moyen simple de le faire dans un robots.txt
déposer.
Vous pouvez y parvenir en mettant un noindex,nofollow
META
balise dans le HTML chaque page sauf la page d'accueil.
Robots.txt de base :
Disallow: /subdir/
Je ne pense pas que vous puissiez créer une expression disant « tout sauf la racine », vous devez remplir tous les sous-répertoires.
La limitation de la chaîne de requête n'est pas non plus possible à partir de robots.txt.Vous devez le faire dans le code d'arrière-plan (la partie traitement), ou peut-être avec les règles de réécriture du serveur.
Disallow: *
Allow: index.ext
Si je me souviens bien, la deuxième clause devrait remplacer la première.
Pour autant que je sache, tous les robots ne prennent pas en charge la balise Autoriser.Une solution possible pourrait consister à tout placer sauf la page d'accueil dans un autre dossier et à interdire ce dossier.