Стоит ли избавиться от ботов, посещающих мой сайт?
-
11-07-2019 - |
Вопрос
Я заметил на своих трекерах, что боты МНОГО посещают мой сайт.Должен ли я изменить или отредактировать файл robots.txt или что-то изменить?Не уверен, хорошо ли это, потому что они индексируются или что?
Решение
Должен ли я изменить или отредактировать файл robots.txt или что-то изменить?
Зависит от бота.Некоторые боты покорно игнорируют robots.txt.18 месяцев назад у нас была аналогичная проблема с ботом Google AD, потому что наш клиент покупал ооочень много рекламы.Боты Google AD (как описано) игнорируют исключения с подстановочными знаками (*), но слушают явное игнорирование.
Помните, что боты, которые учитывают robots.txt, просто не будут сканировать ваш сайт.Это нежелательно, если вы хотите, чтобы они получили доступ к вашим данным для индексации.
Лучшее решение — ограничить или предоставить ботам статический контент.
Не уверен, хорошо ли это, потому что они индексируются или что?
Они могут индексировать/очищать/воровать.Всё так же на самом деле.Я думаю, вы хотите ограничить обработку http-запросов на основе UserAgents.Как это сделать, зависит от вашего веб-сервера и контейнера приложения.
Как предлагается в других ответах, если бот является вредоносным, вам нужно будет либо найти шаблон UserAgent, либо отправить ему 403 запрета.Или, если вредоносные боты динамически изменяют строки пользовательского агента, у вас есть два дополнительных варианта:
- Пользовательские агенты белого списка – например.создайте фильтр пользовательских агентов, который принимает только определенные пользовательские агенты.Это очень несовершенно.
- Запрет IP — заголовок http будет содержать IP-адрес источника.Или, если вы получаете DOS (атаку отказа в обслуживании), у вас есть более серьезные проблемы.
Другие советы
Я действительно не думаю, что изменение robots.txt поможет, потому что только ХОРОШИЕ боты соблюдают его. Все остальные игнорируют это и разбирают ваш контент по своему усмотрению. Лично я использую http://www.codeplex.com/urlrewriter , чтобы избавиться от нежелательных роботов с помощью ответ запрещенным сообщением, если они найдены.
Спам-боты не заботятся о robots.txt. Вы можете заблокировать их с помощью чего-то вроде mod_security (который сам по себе довольно интересный плагин Apache). Или вы можете просто игнорировать их.
Возможно, вам придется использовать .htaccess, чтобы запретить некоторым ботам придираться к вашим журналам. Смотрите здесь: http://spamhuntress.com/2006/02/ 13 / другой голодный-ява-бут /
У меня было много ботов Java, просматривающих мой сайт и добавляющих
SetEnvIfNoCase User-Agent ^ Java / 1. javabot = да
SetEnvIfNoCase User-Agent ^ Java1. javabot = да
Запретить от env = javabot
заставил их остановиться. Теперь они получают только 403 один раз и все:)
Однажды я работал на клиента, у которого было несколько "сравнений цен" боты заходят на сайт все время. Проблема заключалась в том, что наши внутренние ресурсы были недостаточны и стоили денег за транзакцию.
После попытки отбить некоторые из них в течение некоторого времени, но боты просто продолжали менять свои узнаваемые характеристики. Мы получили следующую стратегию:
Для каждого сеанса на сервере мы определяли, нажимал ли пользователь в любой момент слишком быстро. После заданного количества повторов мы установим «isRobot». установите значение true и просто уменьшите скорость отклика в этом сеансе, добавив спящие режимы. Мы никому не сообщили об этом, поскольку в этом случае он просто начал бы новую сессию.