Comment mettre en place un robot.txt qui autorise uniquement la page par défaut d'un site

https://stackoverflow.com/questions/43427

09-06-2019
|

Question

Disons que j'ai un site sur http://exemple.com.J'aimerais vraiment permettre aux robots de voir la page d'accueil, mais toute autre page doit être bloquée car il est inutile de la parcourir.Autrement dit

http://exemple.com & http://exemple.com/ devrait être autorisé, maishttp://example.com/anything et http://example.com/someendpoint.aspx devrait être bloqué.

De plus, ce serait formidable si je pouvais autoriser le passage de certaines chaînes de requête vers la page d'accueil :http://exemple.com?okparam=true

mais nonhttp://example.com?anythingbutokparam=true

La solution

Ainsi, après quelques recherches, voici ce que j'ai trouvé - une solution acceptable par les principaux moteurs de recherche : Google , Yahoo & msn (je pourrais trouver un validateur ici) :

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

L'astuce consiste à utiliser le $ pour marquer la fin de l'URL.

Autres conseils

Outils pour les webmasters de Google rapport que l'interdiction a toujours priorité sur l'autorisation, il n'y a donc pas de moyen simple de le faire dans un robots.txt déposer.

Vous pouvez y parvenir en mettant un noindex,nofollow META balise dans le HTML chaque page sauf la page d'accueil.

Robots.txt de base :

Disallow: /subdir/

Je ne pense pas que vous puissiez créer une expression disant « tout sauf la racine », vous devez remplir tous les sous-répertoires.

La limitation de la chaîne de requête n'est pas non plus possible à partir de robots.txt.Vous devez le faire dans le code d'arrière-plan (la partie traitement), ou peut-être avec les règles de réécriture du serveur.

Disallow: *
Allow: index.ext

Si je me souviens bien, la deuxième clause devrait remplacer la première.

Pour autant que je sache, tous les robots ne prennent pas en charge la balise Autoriser.Une solution possible pourrait consister à tout placer sauf la page d'accueil dans un autre dossier et à interdire ce dossier.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow