Robots dynamiques.txt

https://stackoverflow.com/questions/43971

09-06-2019
|

Question

Disons que j'ai un site Web pour héberger du contenu généré par la communauté qui cible un ensemble d'utilisateurs très spécifique.Maintenant, disons que dans l'intérêt de favoriser une meilleure communauté, j'ai une zone hors sujet où les membres de la communauté peuvent publier ou parler de tout ce qu'ils veulent, quel que soit le thème principal du site.

Maintenant je vouloir la plupart du contenu doit être indexé par Google.L'exception notable est le contenu hors sujet.Chaque fil de discussion a sa propre page, mais tous les fils de discussion sont répertoriés dans le même dossier, je ne peux donc pas simplement exclure les moteurs de recherche d'un dossier quelque part.Cela doit être par page.Un fichier robots.txt traditionnel deviendrait énorme, alors comment pourrais-je y parvenir autrement ?

La solution

Cela fonctionnera pour tous les moteurs de recherche qui se comportent bien, ajoutez-le simplement au <head>:

<meta name="robots" content="noindex, nofollow" />

Autres conseils

Si j'utilise Apache, j'utiliserais mod-rewrite pour alias robots.txt vers un script qui pourrait générer dynamiquement le contenu nécessaire.

Modifier:Si vous utilisez IIS, vous pouvez utiliser ISAPIRéécriture Faire la même chose.

De la même manière que la suggestion de @James Marshall - dans ASP.NET, vous pouvez utiliser un HttpHandler pour rediriger les appels vers robots.txt vers un script qui a généré le contenu.

Vous pouvez l'implémenter en remplaçant robots.txt par un script dynamique générant la sortie.Avec Apache, vous pouvez créer une simple règle .htaccess pour y parvenir.

RewriteRule  ^robots\.txt$ /robots.php [NC,L]

Juste pour ce fil, assurez-vous que votre tête contient une balise méta noindex.C'est une autre façon de dire aux moteurs de recherche de ne pas explorer votre page autre que le blocage dans robots.txt

Gardez simplement à l’esprit qu’une interdiction de robots.txt n’empêchera PAS Google d’indexer les pages contenant des liens provenant de sites externes, elle ne fait qu’empêcher l’exploration en interne.Voir http://www.webmasterworld.com/google/4490125.htm ou http://www.stonetemple.com/articles/interview-matt-cutts.shtml.

Vous pouvez interdire aux moteurs de recherche de lire ou d'indexer votre contenu en limitant les balises méta des robots.De cette façon, Spider tiendra compte de vos instructions et indexera uniquement les pages que vous souhaitez.

bloquer la page Web dynamique par robots.txt utiliser ce code

Agent utilisateur:*

Refuser:/setnewsprefs ?

Refuser:/index.html?

Refuser:/?

Permettre:/?hl=

Refuser:/?hl=*&

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow