Filtrado de correo no deseado a partir de datos recuperada

https://datascience.stackexchange.com/questions/387

16-10-2019
|

Pregunta

Una vez escuché que el filtrado de correo no deseado mediante el uso de listas negras no es un buen enfoque, ya que algunas búsquedas de usuario para las entradas en el conjunto de datos puede estar buscando información en particular de las fuentes bloqueadas. También se había convertido en una carga para validar continuamente el estado actual de cada spammer bloqueado, comprobar si el sitio / dominio todavía de datos spam se disemina.

Teniendo en cuenta que cualquier enfoque debe ser eficiente y escalable, a fin de apoyar el filtrado de datos muy grandes, ¿cuáles son las estrategias disponibles para deshacerse de correo no deseado de una manera no sesgada?

Editar . Si es posible, cualquier ejemplo de la estrategia, incluso si sólo la intuición detrás de ella, sería muy bienvenida junto con la respuesta

Solución

Filtro Spam, especialmente en el correo electrónico, se ha revolucionado por las redes neuronales, aquí hay un par de artículos que brindan buena lectura sobre el tema:

En las redes neuronales y el futuro de spam A. C. Cosoi, M. S. Vlad, V. Sgarciu http://ceai.srait.ro/index.php/ceai / article / viewFile / 18/8

Basado-Word

Filtro inteligente de detección de spam Uso Multi-Redes Neuronales Ann Nosseir, Khaled Nagati y el Islam Taj-Eddin http://www.ijcsi.org/papers/IJCSI -10-2-1-17-21.pdf

Detección de Spam usando redes neuronales adaptativas: Teoría de Resonancia Adaptativa David Ndumiyana, Richard Gotora y Tarisai Mupamombe http://onlineresearchjournals.org/JPESR/pdf/2013/apr /Ndumiyana%20et%20al.pdf

EDIT: La intuición básica detrás del uso de una red neuronal para ayuda con el filtrado de correo no deseado es proporcionando un peso a un acuerdo basado en la frecuencia con que se asocian con el spam.

Las redes neuronales pueden ser entrenados con mayor rapidez en un supervisada - usted proporciona explícitamente la clasificación de la condena en el conjunto de entrenamiento - medio ambiente. Sin entrar en el meollo de la idea básica se puede ilustrar con estas frases:

Text = "¿Cómo es la pérdida de la patente de Viagra Pfizer va a afectar", spam = false Text = "barato Viagra Comprar", spam = true Text = "farmacia en línea Viagra Cialis Lipitor", spam = true

Para una red neuronal de dos etapas, la primera etapa calculará la probabilidad de correo no deseado con sede fuera de si existe la palabra en la oración. Por lo que desde nuestro ejemplo:

viagra => 66% Comprar => 100% Pfizer => 0% etc ..

A continuación, para la segunda etapa los resultados en la primera etapa se utilizan como variables en la segunda etapa:

viagra y compra => 100% Pfizer y viagra => 0%

Esta idea básica se ejecuta para muchas de las permutaciones de las todas las palabras en sus datos de entrenamiento. Los resultados finales Una vez formados, básicamente, sólo es una ecuación que basa el contexto de las palabras en la frase puede asignar una probabilidad de ser spam. Set spamminess umbral, y filtrar cualquier dato más alto que dicho umbral.

Otros consejos

Las listas negras no se tiene valor para un número de razones:

Son fáciles de instalar y de escala - es sólo una tienda de clave / valor, y probablemente puede volver a usar parte de su lógica de almacenamiento en caché de la aplicación más básica
Dependiendo del tamaño y el tipo del ataque de spam, probablemente habrá algunos términos o URL muy específico que se utilice. Es mucho más rápido que tirar ese término en una lista negra de esperar a que su modelo de adaptación.
Puede eliminar elementos igual de rápido que los haya añadido.
Todo el mundo entiende cómo funcionan y cualquier administrador puede usarlos.

La clave para la lucha contra el spam es monitoreo . Asegúrate de que tienes algún tipo de interfaz que muestra los elementos que están en su lista negra, con qué frecuencia se han visto afectados en los últimos 10 minutos / hora / día / mes, y la capacidad de agregar fácilmente y Borrar De los artículos.

Usted querrá combinar un número de diferentes modelos de detección de spam y tácticas. redes neuronales parecen ser una buena sugerencia, y se lo recomiendo mirar patrones de comportamiento del usuario además del contenido solo. Los seres humanos normales no hacen cosas como lotes de envío de 1.000 mensajes de correo electrónico cada 30 segundos durante 12 horas consecutivas.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange