Se connecter automatiquement à Google Web Crawler
-
07-07-2019 - |
Question
Je souhaite détecter automatiquement Google et les autres robots d'exploration et les connecter à mon site Web ASP.NET. Quelqu'un at-il trouvé un moyen fiable de le faire? La partie connexion est facile, mais le vrai problème est de les détecter de manière fiable.
Cordialement.
La solution
Regardez l'agent utilisateur. Ce devrait être googlebot. Une méthode plus fiable consiste à effectuer une recherche inversée de l’adresse IP. Il vous dira s'il s'agit d'un bot Google ou non. J'utiliserais les deux méthodes. MAIS NOTE: Vous ralentirez votre site car vous effectuerez une recherche inversée pour chaque visiteur.
http://www.google.com /support/webmasters/bin/answer.py?hl=fr&answer=80553
Autres conseils
Cela semble être une très mauvaise idée pour plusieurs raisons. Notamment, Google cache des copies de vos pages. Ainsi, même si je ne m'authentifie pas sur votre site, je pourrai consulter le contenu de cette page. les pages Web et autres documents servis depuis la partie protégée de votre site Web.
En ce qui concerne la détection des robots d'indexation Web, je ne ferais confiance à aucun agent d'utilisateur. Vous pouvez probablement compiler une liste d'adresses IP à partir desquelles les robots d'exploration sont originaires, mais dès que Google ajoutera une autre adresse IP, vous refuserez cet accès.
Effectuez une recherche DNS inversée à chaque demande pour vous assurer que le domaine du visiteur est googlebot.com
, comme suggéré à l'adresse La vérification de Googlebot pourrait être un gros problème de performances si votre site est occupé.
Vous n'avez pas besoin de faire une recherche inversée à chaque demande. Cache les résultats de la recherche inversée. Je viens de parcourir mes journaux, et je vois de longs lancements de Googlebot provenant de la même adresse IP. Ce comportement n’est pas garanti, mais dans tous les cas, la mise en cache devrait être une stratégie judicieuse.
Vous pouvez facilement demander à Google d'indexer, mais pas de mettre en cache les pages de votre site, à l'aide de la métabalise noarchive. De cette façon, vous bénéficiez des avantages de la recherche sans exposer votre contenu.
Voir cette page sur Google Webmaster central pour plus d'informations
http://www.google.com /support/webmasters/bin/answer.py?hl=fr&answer=156412