Question

J'ai remarqué sur mes trackers que des bots visitaient beaucoup mon site. Devrais-je changer ou éditer mon fichier robots.txt ou changer quelque chose? Vous ne savez pas si c'est bon, parce qu'ils indexent ou quoi?

Était-ce utile?

La solution

  

Devrais-je changer ou éditer mon fichier robots.txt ou changer quelque chose?

Dépend du bot. Certains robots ignoreront consciencieusement le fichier robots.txt. Nous avons eu un problème similaire il y a 18 mois avec le robot Google AD, car notre client achetait Soooo de nombreuses annonces. Les robots Google AD ignoreront (comme indiqué) les exclusions génériques (*), mais écouteront les ignorations explicites.

N'oubliez pas que les robots qui honorent le fichier robots.txt n'analyseront pas votre site. Cela n'est pas souhaitable si vous souhaitez qu'ils aient accès à vos données pour l'indexation.

Une meilleure solution consiste à limiter ou à fournir du contenu statique aux robots.

  

Vous ne savez pas si c'est bon, parce qu'ils indexent ou quoi?

Ils pourraient être indexés / raclés / volés. Tout de même vraiment. Je pense que vous souhaitez limiter leur traitement des requêtes http basé sur UserAgents. Cela dépend de votre serveur Web et de votre conteneur d'applications.

Comme suggéré dans d'autres réponses, si le bot est malveillant, vous devez trouver le modèle UserAgent et lui envoyer 403 valeurs interdites. Ou, si les robots malveillants changent de manière dynamique les chaînes de l'agent utilisateur, vous avez deux options supplémentaires:

  • Agents d’utilisation de la liste blanche - par exemple, créer un filtre d'agent d'utilisateur qui n'accepte que certains agents d'utilisateur. Ceci est très imparfait.
  • Interdiction des adresses IP: l'en-tête http contiendra l'adresse IP source. Ou, si vous utilisez DOS'd (attaque par déni de service), vous avez de plus gros problèmes

Autres conseils

Je ne pense vraiment pas que le fait de changer le fichier robots.txt va aider, car seuls les BONNES bottes le respectent. Tous les autres l'ignorent et analysent votre contenu comme bon leur semble. J'utilise personnellement http://www.codeplex.com/urlrewriter pour supprimer les robots indésirables en répondant avec un message interdit s'ils sont trouvés.

Les robots de spam ne se soucient pas du fichier robots.txt. Vous pouvez les bloquer avec quelque chose comme mod_security (qui est un plugin Apache plutôt cool en soi). Ou vous pouvez simplement les ignorer.

Vous devrez peut-être utiliser .htaccess pour refuser à certains robots de visser vos journaux. Voir ici: http://spamhuntress.com/2006/02/ 13 / autre-faim-java-bot /

J'ai eu beaucoup de robots Java qui explorent mon site, en ajoutant

Agent utilisateur SetEnvIfNoCase ^ Java / 1. javabot = yes
SetEnvIfNoCase User-Agent ^ Java1. javabot = yes
Refuser de env = javabot

les a fait arrêter. Maintenant, ils ne reçoivent que 403 une fois et c'est tout:)

J'ai déjà travaillé pour un client qui possédait plusieurs "comparaisons de prix". les robots frappent le site tout le temps. Le problème était que nos ressources de base étaient rares et coûtaient de l'argent par transaction.

Après avoir essayé de lutter contre certains d’entre eux pendant un certain temps, mais les robots ont continué à changer leurs caractéristiques reconnaissables. Nous nous sommes retrouvés avec la stratégie suivante:

Pour chaque session sur le serveur, nous avons déterminé si l'utilisateur cliquait trop rapidement. Après un nombre donné de répétitions, nous définirions le paramètre "isRobot". flag à true et réduisez simplement la vitesse de réponse au cours de cette session en ajoutant des mises en veille. Nous n'avons absolument rien dit à l'utilisateur, puisqu'il venait de démarrer une nouvelle session dans ce cas.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top