Heurística para descubrir spammers/bots (en foros, blogs, etc.)

https://stackoverflow.com/questions/735344

09-09-2019
|

Pregunta

Las formas que se me ocurren son:

Mide el tiempo entre acciones.
Compara el contenido de las publicaciones (si son demasiado similares entre sí) o, mejor aún, solo los enlaces publicados.
Verificar la distribución durante un período de tiempo en el que el usuario está activo (si el usuario está activo, digamos que publica una vez cada hora, durante una semana, entonces tenemos un superhombre o un bot aquí).
Se espera alguna actividad especial:Al igual que en stackoverflow, esperaría que los usuarios presionen el enlace de su nombre de usuario (arriba en el medio) para ver sus nuevas respuestas, comentarios, preguntas, etc.
(agregado por chakrit) Número de enlaces en una publicación.
No heurístico.Utilice algún JS asíncrono para iniciar sesión como usuario.(Simplemente le hace la vida un poco más difícil al programador del bot).
(agregado por Alekc) No heurístico.Valores de usuario-agente.
Y, ¿cómo podría olvidar el enfoque de Google (mencionado más abajo por Will Hartung)?Brinde a los usuarios la posibilidad de marcar a alguien como spam; suficientes votos de spam significan que se trata de un usuario de spam.(calcular cuántos usuarios son suficientes, es el trabajo aquí).

¿Alguna idea más?

Solución

Puede ser que sea sobre la estimación de la inteligencia de los creadores de bots, pero el número 6 es completamente inútil en contra de cualquier creador bot semi decente. Uso del control del navegador # C para crear su robot sería más o menos 6 rendir inútil. Por lo que he visto con ese tipo de software que es un enfoque bastante común.

La validación en el agente de usuario es bastante inútil demasiado todo el correo no deseado blog que utilizo para obtener era contra los robots que parecen ser válidos los navegadores web.

que utilizo para obtener una gran cantidad de spam. Me gustaría ser, literalmente, cientos de comentarios borrando un día. Hice uso de reCaptcha y ahora podría obtener 1 al mes.

Si realmente intenta hacer algo como esto. Me gustaría intentar haciendo lo siguiente:

El usuario comienza con ninguna posibilidad de publicar una URL.

Después de un número X de los mensajes han sido analizados en relación con los otros mensajes en el hilo luego darles acceso para publicar las URL.

La actividad de los usuarios en el sitio, la calidad de correos, y lo que cada vez otros factores que considere necesaria será una reputación para que los usuarios de IP.

A continuación, en base a la reputación de la IP y las demás direcciones IP de la misma subred que puede tomar otras decisiones en lo que quieras.

Eso fue lo primero que vino a la mente. Espero que ayuda.

Otros consejos

El número de enlaces en un post.

Creo que he leído en alguna parte que Akismet utilizar el número de enlaces como uno de sus principales heurística.

Y la mayoría de los comentarios de spam en mi blog contiene 10 + enlaces en ellos.

Hablando de eso ... sólo puede ser que desee revisar la href="http://akismet.com/development/api/" rel="nofollow noreferrer"> API sí. . son extremadamente eficaces.

¿Qué tal una búsqueda de palabras clave relacionados con el spam en el cuerpo de la entrada?

No es un heurístico, sino un enfoque eficaz: También puede mantenerse al día con las estadísticas publicadas por StopForumSpam API .

El tiempo entre visitas a la página es común que creo.

Tengo que añadir una sección de comentarios a mi sitio personal y estoy pensando en pedir a la gente que me diera su dirección de correo electrónico; Voy a ellos por correo electrónico un enlace de "publicar comentario".

Es posible que desee comprobar si han llegado desde una dirección IP spam lista negra (Ver http: // www. spamhaus.org/ )

Hay otra respuesta eso sugiere usar Akismet para detectar spam, lo cual apoyo completamente.

Sin embargo, no son el único jugador del bloque.

Hay Antispam de TypePad que utiliza la misma heurística que Akismet, así como la misma API (solo una URL y clave de API diferentes, la estructura de las llamadas es la misma).Se puede decir con seguridad que adoptan prácticamente el mismo enfoque que Akismet.

Es posible que también desees consultar Proyecto Honeypot.Por lo que puedo decir, puede hacer una búsqueda basada en la dirección IP del usuario, y si es una IP maliciosa conocida, te lo dirá (cosechador o algo así).

Finalmente puedes comprobar EnlaceManga que aborda el spam de comentarios de una manera que afirma ser diferente.Básicamente, verifica los enlaces a los que se vinculan en los comentarios y, en función de dónde van los enlaces, toma una determinación.

No se olvide de la heurística final: El botón "Reportar Spam" que los usuarios pueden hacer clic. Por lo menos, esto le da la oportunidad como administrador para actualizar su base de reglas para la materia que pueden estar deslizándose a través. Por supuesto, puede simplemente eliminar el mensaje ofensivo y el usuario de inmediato también.

Tengo algunas dudas sobre 4 ° punto, de todos modos yo también añadiría User-Agent. Es bastante fácil de falsificar, pero en mi experiencia, el 90% de los robots están usando Perl como UA

Estoy seguro de que es un servicio web de algún tipo que se puede obtener una lista de las principales palabras clave de SEO, comprobar el contenido para estas palabras. si el contenido es rico en palabras clave sospechan que como correo no deseado.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow