Filtre anti-spam à partir des données récupérées

https://datascience.stackexchange.com/questions/387

16-10-2019
|

Question

J'entendu une fois que le filtrage du spam en utilisant des listes noires ne sont pas une bonne approche, depuis quelques recherches de l'utilisateur pour les entrées dans votre ensemble de données peut être à la recherche d'informations émanant des sources bloquées. En outre, il était devenu un fardeau pour valider en permanence la état actuel de chaque spammeur bloqué, vérifier si le site / domaine encore la diffusion des données de spam.

Considérant que toute approche doit être efficace et évolutive, afin de soutenir le filtrage sur de très grands ensembles de données, quelles sont les stratégies disponibles pour se débarrasser du spam de manière non biaisée?

Modifier :. Si possible, aucun exemple de stratégie, même si seulement l'intuition derrière elle, serait la bienvenue ainsi que la réponse

La solution

le filtrage du spam, en particulier dans le courrier électronique, a été révolutionné par les réseaux de neurones, voici les papiers couple qui offrent une bonne lecture sur le sujet:

Sur les réseaux de neurones et l'avenir de Spam A. C. Cosoi, M. S. Vlad, V. Sgarciu http://ceai.srait.ro/index.php/ceai / article / ViewFile / 18/8

Mot-Based intelligent filtre anti-spams détection à l'aide Réseaux multi-neurales Ann Nosseir, Khaled Nagati et l'Islam Taj-Eddin http://www.ijcsi.org/papers/IJCSI -10-2-1-17-21.pdf

Détection spam en utilisant les réseaux de neurones adaptatifs: Théorie Adaptive résonance David Ndumiyana, Richard Gotora et Tarisai Mupamombe http://onlineresearchjournals.org/JPESR/pdf/2013/apr /Ndumiyana%20et%20al.pdf

EDIT: L'intuition de base derrière l'aide d'un réseau de neurones pour aider avec le filtrage anti-spam est en fournissant un poids à des conditions en fonction de la fréquence à laquelle ils sont associés à du spam.

Les réseaux de neurones peut être formé plus rapidement dans un supervisé - vous fournissez explicitement la classification de la phrase dans l'ensemble de la formation - environnement. Sans entrer dans le Nitty Gritty l'idée de base peut être illustrée par ces phrases:

Text = "Comment est la perte du brevet du Viagra va affecter Pfizer", Spam = false Text = "Cheap Viagra Acheter maintenant", Spam = true Text = "pharmacie en ligne Viagra Cialis Lipitor", Spam = true

Pour un réseau de neurones en deux étapes, la première étape calcule la probabilité de spam en fonction hors de si le mot existe dans la phrase. Donc, de notre exemple:

Viagra => 66% achat => 100% Pfizer => 0% etc ..

Alors, pour la deuxième étape, les résultats de la première étape sont utilisés comme variables dans la deuxième étape:

viagra et acheter => 100% Pfizer & viagra => 0%

Cette idée de base est exécutée pour un grand nombre des permutations des tous les mots dans vos données d'entraînement. Les résultats finaux une fois formés est fondamentalement juste une équation qui base du contexte des mots dans la phrase peut assigner une probabilité d'être du spam. Ensemble seuil de, et filtrer les données plus élevés que ledit seuil.

Autres conseils

Les listes noires ne sont pas ont une valeur pour plusieurs raisons:

Ils sont faciles à mettre en place et à l'échelle - il est juste un magasin clé / valeur, et vous pouvez probablement réutiliser une partie de votre logique de mise en cache pour la mise en œuvre le plus élémentaire
En fonction de la taille et le type de l'attaque de spam, il y aura probablement des termes très spécifiques ou les URL utilisées. Il est beaucoup plus rapide de jeter ce terme dans une liste noire que d'attendre votre modèle d'adaptation.
Vous pouvez supprimer des éléments aussi rapidement que vous les avez ajoutés.
Tout le monde comprend comment ils fonctionnent et tout administrateur peut les utiliser.

La clé de Spam de combat est surveillance . Assurez-vous d'avoir une sorte de montrer l'interface qui produits sur votre liste noire, combien de fois ils ont été touchés dans les 10 dernières minutes / heure / jour / mois, et la possibilité d'ajouter et de supprimer facilement les éléments.

Vous souhaitez combiner un certain nombre de différents modèles de détection de spam et tactiques. les réseaux de neurones semblent être une bonne idée, et je vous recommande de regarder modèles de comportement utilisateur en plus du contenu juste. Les humains normaux ne font pas les choses comme lots d'envoi de 1000 e-mails toutes les 30 secondes pendant 12 heures consécutives.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange