Советы по использованию тега Honeypot IMG для обнаружения скребков / плохих ботов

StackOverflow https://stackoverflow.com/questions/7340105

Вопрос

Мы хотим настроить небольшое изображение Honeypot в наших HTML -телах, чтобы обнаружить скребки / плохих ботов.

Кто -нибудь установил что -то подобное раньше?

Мы думали, что лучше всего пойти:

а) прокомментируйте HTML через:

<!-- <img src="http://www.domain.com/honeypot.gif"/> -->

б) Применить стили CSS к изображению, что сделало бы его скрытым от браузеров через:

.... id="honeypot" ....

#honeypot{
    display:none;
    visibility:hidden;
}

Используя вышеупомянутое, кто -нибудь представляет какие -либо ситуации, когда правильный и настоящий пользовательский агент вытащил бы изображение / попытку его отобрать?

Honeypot.gif был бы сценарием PHP mod_rewritten, где мы будем делать нашу журналу.

Хотя я понимаю, что приведенные выше 2 условия могут быть пропущены любым хорошо кодированным скребком, это, по крайней мере, избавилось от некоторого понимания на очень грязных.

Есть ли другие указатели на лучший способ пойти на это?

Это было полезно?

Решение

Бот будет игнорировать вашу метку IMG, потому что он находится в комментарии.

Вместо этого вы можете подумать о создании невидимого Div, который содержит ссылку на триггерный URL на том же сайте (предпочтительно в том же каталоге, если бот чувствителен к глубине).

Другие советы

ИМО, я думаю, что любой хороший скребок узнает, как пройти HTML, используя SGML parser, и просто пропустил бы закомментированное изображение, но я могу ошибаться.

В лучшем случае это даст вам идею, когда это произойдет, но не дает возможности противостоять Scraper. Вам, вероятно, было бы лучше придумать какое -то решение на основе печенья, так как большинство ботов, вероятно, не заботятся об этом. Вы также можете рандомизировать пути изображения между запросами и истекать через короткий период.

Проверка реферала является очевидной, если вы не заботитесь о браузерах, которые не поддерживают их или люди, которые скрывают/изменяют их.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top