Question

Je souhaite détecter automatiquement Google et les autres robots d'exploration et les connecter à mon site Web ASP.NET. Quelqu'un at-il trouvé un moyen fiable de le faire? La partie connexion est facile, mais le vrai problème est de les détecter de manière fiable.

Cordialement.

Était-ce utile?

La solution

Regardez l'agent utilisateur. Ce devrait être googlebot. Une méthode plus fiable consiste à effectuer une recherche inversée de l’adresse IP. Il vous dira s'il s'agit d'un bot Google ou non. J'utiliserais les deux méthodes. MAIS NOTE: Vous ralentirez votre site car vous effectuerez une recherche inversée pour chaque visiteur.

http://www.google.com /support/webmasters/bin/answer.py?hl=fr&answer=80553

Autres conseils

Cela semble être une très mauvaise idée pour plusieurs raisons. Notamment, Google cache des copies de vos pages. Ainsi, même si je ne m'authentifie pas sur votre site, je pourrai consulter le contenu de cette page. les pages Web et autres documents servis depuis la partie protégée de votre site Web.

En ce qui concerne la détection des robots d'indexation Web, je ne ferais confiance à aucun agent d'utilisateur. Vous pouvez probablement compiler une liste d'adresses IP à partir desquelles les robots d'exploration sont originaires, mais dès que Google ajoutera une autre adresse IP, vous refuserez cet accès.

Effectuez une recherche DNS inversée à chaque demande pour vous assurer que le domaine du visiteur est googlebot.com , comme suggéré à l'adresse La vérification de Googlebot pourrait être un gros problème de performances si votre site est occupé.

Vous n'avez pas besoin de faire une recherche inversée à chaque demande. Cache les résultats de la recherche inversée. Je viens de parcourir mes journaux, et je vois de longs lancements de Googlebot provenant de la même adresse IP. Ce comportement n’est pas garanti, mais dans tous les cas, la mise en cache devrait être une stratégie judicieuse.

Vous pouvez facilement demander à Google d'indexer, mais pas de mettre en cache les pages de votre site, à l'aide de la métabalise noarchive. De cette façon, vous bénéficiez des avantages de la recherche sans exposer votre contenu.

Voir cette page sur Google Webmaster central pour plus d'informations

http://www.google.com /support/webmasters/bin/answer.py?hl=fr&answer=156412

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top