Как отслеживать всю активность веб-сайта и фильтровать данные веб-роботов

StackOverflow https://stackoverflow.com/questions/1285749

  •  18-09-2019
  •  | 
  •  

Вопрос

Я провожу очень элементарное отслеживание просмотров страниц, записывая URL-адреса, коды рефералов, сеансы, время и т. д., но обнаруживаю, что их бомбардируют роботы (Google, Yahoo и т. д.).Мне интересно, какой эффективный способ отфильтровать или не регистрировать эту статистику?

Я экспериментировал со списками IP-адресов роботов и т. д., но это не является надежным.

Есть ли какой-нибудь файл robots.txt, htaccess, серверный код PHP, javascript или другие методы, которые могут «обмануть» роботов или игнорировать взаимодействие с людьми?

Это было полезно?

Решение

Просто добавлю: метод, который вы можете использовать в своем интерфейсе, будет заключаться в использовании Javascript для инкапсуляции действий, которые приводят к определенным приращениям представления/счетчика взаимодействия с пользователем, для очень элементарного примера, робот не будет (не может) следовать:

<a href="javascript:viewItem(4)">Chicken Farms</a>

function viewItem(id)
{
    window.location.href = 'www.example.com/items?id=' + id + '&from=userclick';
}

Чтобы эти клики было легче отслеживать, они могут выдавать такой запрос, как

www.example.com/items?id=4&from=userclick

Это помогло бы вам надежно отслеживать, сколько раз на что-то «нажимали», но у этого метода есть очевидные недостатки, и, конечно, это действительно зависит от того, чего вы пытаетесь достичь.

Другие советы

Это зависит от того, чего вы хотите добиться.Если вы хотите, чтобы поисковые боты перестали посещать определенные пути/страницы, вы можете включить их в robots.txt.Большинство хорошо ведущих себя ботов перестанут их бить.

Если вы хотите, чтобы боты индексировали эти пути, но не хотите видеть их в своих отчетах, вам необходимо реализовать некоторую логику фильтрации.Например.все основные боты имеют очень четкую строку пользовательского агента (например,Googlebot/2.1).Вы можете использовать эти строки для фильтрации таких обращений из отчетов.

Что ж, все роботы будут использовать определенный пользовательский агент, поэтому вы можете просто игнорировать эти запросы.

Но также, если вы просто используете robots.txt и запрещаете им посещение;ну это тоже сработает.

Не открывайте заново колесо!

Любой статистический инструмент на данный момент фильтрует запросы роботов.Вы можете установить AWSTATS (с открытым исходным кодом), даже если у вас есть общий хостинг.Если вы не хотите устанавливать программное обеспечение на свой сервер, вы можете использовать Google Analytics, добавив всего лишь скрипт в конце страниц.Оба решения очень хороши.Таким образом, вам нужно будет регистрировать только свои ошибки (достаточно 500, 404 и 403).

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top