Consejo para el uso de la etiqueta de honeypot img para detectar raspadores / bots malos

https://stackoverflow.com/questions/7340105

27-10-2019
|

Pregunta

Queremos configurar una pequeña imagen de honeypot en nuestros cuerpos HTML para detectar raspadores / bots malos.

¿Alguien ha establecido algo como esto antes?

Estábamos pensando que la mejor manera de hacerlo sería:

a) Comente el HTML a través de:

<!-- <img src="http://www.domain.com/honeypot.gif"/> -->

b) Aplicar estilos CSS a la imagen que la haría ocultar de los navegadores a través de:

.... id="honeypot" ....

#honeypot{
    display:none;
    visibility:hidden;
}

Usando lo anterior, ¿alguien preveía alguna situación en las que un usuario de usuario adecuado y real extraiga la imagen / intento de renderizarla?

Honeypot.gif sería un script PHP MOD_rewritten donde haríamos nuestro registro.

Si bien entiendo que las 2 condiciones anteriores pueden ser omitidas por cualquier raspador bien codificado, al menos arrojaría alguna idea de las muy sucias.

¿Algún otro consejo sobre la mejor manera de hacer esto?

Solución

Un bot ignorará su etiqueta IMG porque está dentro de un comentario.

En cambio, puede considerar crear un DIV invisible que contiene un enlace a una URL de activación en el mismo sitio (preferiblemente dentro del mismo directorio, en caso de que el bot sea sensible a la profundidad).

Otros consejos

En mi opinión, creo que cualquier buen raspador sabrá cómo pasar HTML usando un SGML parser, y simplemente omitiría la imagen comentada, pero podría estar equivocado.

A lo sumo, le dará una idea cuando suceda, pero no proporciona una forma de contrarrestar en Scraper. Probablemente sea mejor que se les ocurra algún tipo de solución a base de cookies, ya que a la mayoría de los bots probablemente no les importa. También puede aleatorizar las rutas de imagen entre las solicitudes y expirarlas después de un corto período.

Verificar el referente es obvio, si no le importan los navegadores que no los apoyan o las personas que los esconden/alteran.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow