Стоит ли избавиться от ботов, посещающих мой сайт?

StackOverflow https://stackoverflow.com/questions/327192

  •  11-07-2019
  •  | 
  •  

Вопрос

Я заметил на своих трекерах, что боты МНОГО посещают мой сайт.Должен ли я изменить или отредактировать файл robots.txt или что-то изменить?Не уверен, хорошо ли это, потому что они индексируются или что?

Это было полезно?

Решение

Должен ли я изменить или отредактировать файл robots.txt или что-то изменить?

Зависит от бота.Некоторые боты покорно игнорируют robots.txt.18 месяцев назад у нас была аналогичная проблема с ботом Google AD, потому что наш клиент покупал ооочень много рекламы.Боты Google AD (как описано) игнорируют исключения с подстановочными знаками (*), но слушают явное игнорирование.

Помните, что боты, которые учитывают robots.txt, просто не будут сканировать ваш сайт.Это нежелательно, если вы хотите, чтобы они получили доступ к вашим данным для индексации.

Лучшее решение — ограничить или предоставить ботам статический контент.

Не уверен, хорошо ли это, потому что они индексируются или что?

Они могут индексировать/очищать/воровать.Всё так же на самом деле.Я думаю, вы хотите ограничить обработку http-запросов на основе UserAgents.Как это сделать, зависит от вашего веб-сервера и контейнера приложения.

Как предлагается в других ответах, если бот является вредоносным, вам нужно будет либо найти шаблон UserAgent, либо отправить ему 403 запрета.Или, если вредоносные боты динамически изменяют строки пользовательского агента, у вас есть два дополнительных варианта:

  • Пользовательские агенты белого списка – например.создайте фильтр пользовательских агентов, который принимает только определенные пользовательские агенты.Это очень несовершенно.
  • Запрет IP — заголовок http будет содержать IP-адрес источника.Или, если вы получаете DOS (атаку отказа в обслуживании), у вас есть более серьезные проблемы.

Другие советы

Я действительно не думаю, что изменение robots.txt поможет, потому что только ХОРОШИЕ боты соблюдают его. Все остальные игнорируют это и разбирают ваш контент по своему усмотрению. Лично я использую http://www.codeplex.com/urlrewriter , чтобы избавиться от нежелательных роботов с помощью ответ запрещенным сообщением, если они найдены.

Спам-боты не заботятся о robots.txt. Вы можете заблокировать их с помощью чего-то вроде mod_security (который сам по себе довольно интересный плагин Apache). Или вы можете просто игнорировать их.

Возможно, вам придется использовать .htaccess, чтобы запретить некоторым ботам придираться к вашим журналам. Смотрите здесь: http://spamhuntress.com/2006/02/ 13 / другой голодный-ява-бут /

У меня было много ботов Java, просматривающих мой сайт и добавляющих

SetEnvIfNoCase User-Agent ^ Java / 1. javabot = да
SetEnvIfNoCase User-Agent ^ Java1. javabot = да
Запретить от env = javabot

заставил их остановиться. Теперь они получают только 403 один раз и все:)

Однажды я работал на клиента, у которого было несколько "сравнений цен" боты заходят на сайт все время. Проблема заключалась в том, что наши внутренние ресурсы были недостаточны и стоили денег за транзакцию.

После попытки отбить некоторые из них в течение некоторого времени, но боты просто продолжали менять свои узнаваемые характеристики. Мы получили следующую стратегию:

Для каждого сеанса на сервере мы определяли, нажимал ли пользователь в любой момент слишком быстро. После заданного количества повторов мы установим «isRobot». установите значение true и просто уменьшите скорость отклика в этом сеансе, добавив спящие режимы. Мы никому не сообщили об этом, поскольку в этом случае он просто начал бы новую сессию.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top