Filtern von Spam aus abgerufenen Daten

https://datascience.stackexchange.com/questions/387

16-10-2019
|

Frage

Ich habe einmal gehört, dass das Filtern von Spam durch Verwendung von Blacklists kein guter Ansatz ist, da einige Benutzer, die nach Einträgen in Ihrem Datensatz suchen, möglicherweise nach bestimmten Informationen aus den blockierten Quellen suchen. Es wäre auch eine Belastung, die kontinuierlich zu validieren aktuellen Zustand von jedem Spammer blockiert und prüft, ob die Site/Domäne immer noch Spam -Daten verbreitet.

Wenn man bedenkt, dass ein Ansatz effizient und skalierbar sein muss, um die Filterung von sehr großen Datensätzen zu unterstützen, welche Strategien stehen die Strategien zur Verfügung, um Spam auf nicht voreingenommene Weise loszuwerden?

Bearbeiten: Wenn möglich, wäre jedes Beispiel für Strategie, auch wenn nur die Intuition dahinter, zusammen mit der Antwort sehr willkommen.

Lösung

Die Spam -Filterung, insbesondere in E -Mails, wurde von neuronalen Netzwerken revolutioniert. Hier finden Sie ein paar Papiere, die eine gute Lektüre zu diesem Thema bieten:

Über neuronale Netzwerke und die Zukunft von SPAM AC Cosoi, Frau Vlad, V. Sgarciuhttp://ceai.srait.ro/index.php/ceai/article/viewfile/18/8

Intelligent wortbasierte Spam-Filtererkennung unter Verwendung von Multi-Neural-Netzwerken Ann Nossseir, Khaled Nagati und Islam Taj-Eddinhttp://www.ijcsi.org/papers/ijcsi-10-17-21.pdf

SPAM -Erkennung unter Verwendung von adaptiven neuronalen Netzwerken: Adaptive Resonanztheorie David Ndumiyana, Richard Gotora und Tarisai Mupamombehttp://onlineresearchjournals.org/jpesr/pdf/2013/apr/ndumiyana%20et%20al.pdf

Bearbeiten: Die grundlegende Intuition hinter der Verwendung eines neuronalen Netzwerks zur Unterstützung der Spam -Filterung besteht darin, ein Gewicht für Begriffe zu liefern, basierend darauf, wie oft sie mit Spam in Verbindung gebracht werden.

Neuronale Netze können am schnellsten in einer überwachten Ausbildung ausgebildet werden - Sie stellen ausdrücklich die Klassifizierung des Satzes im Trainingssatz - Umgebung an. Ohne in die Niete zu gehen, kann die Grundidee mit diesen Sätzen illustriert werden:

Text = "Wie wird der Verlust des Viagra -Patents auf Pfizer beeinflussen", spam = false text = "billig viagra jetzt kaufen", spam = true text = "Online -Apotheke viagra cialis lipitor", spam = true

Für ein zweistufiges neuronales Netzwerk berechnet die erste Stufe die Wahrscheinlichkeit von Spam, die darauf basieren, ob das Wort im Satz existiert. Also aus unserem Beispiel:

viagra => 66% kaufen => 100% Pfizer => 0% etc.

In der zweiten Stufe werden die Ergebnisse in der ersten Stufe in der zweiten Stufe als Variablen verwendet:

viagra & buy => 100% Pfizer & viagra => 0%

Diese Grundidee wird für viele der Permutationen aller Wörter in Ihren Trainingsdaten ausgeführt. Das Endergebnis nach dem Training ist im Grunde nur eine Gleichung, die auf dem Kontext der Wörter im Satz eine Wahrscheinlichkeit eines Spams zuweisen kann. Stellen Sie die Schwelle auf die Spamminess fest und filtern Sie alle Daten höher heraus, dann haben Sie die Schwelle.

Andere Tipps

Blacklisten haben aus mehreren Gründen keinen Wert:

Sie sind leicht eingerichtet und skalieren - es ist nur ein Schlüssel-/Wertspeicher, und Sie können wahrscheinlich nur einige Ihrer Caching -Logik für die grundlegendste Implementierung wiederverwenden.
Abhängig von der Größe und dem Typ des Spam -Angriffs werden wahrscheinlich einige sehr spezifische Begriffe oder URLs verwendet. Es ist viel schneller, diesen Begriff in eine schwarze Liste zu werfen, als auf das Anpassung Ihres Modells zu warten.
Sie können Elemente genauso schnell entfernen, wie Sie sie hinzugefügt haben.
Jeder versteht, wie er funktioniert und jeder Administrator kann sie verwenden.

Der Schlüssel zum Kampf gegen Spam ist Überwachung. Stellen Sie sicher, dass Sie über eine Schnittstelle verfügen, die zeigt, welche Elemente auf Ihrer Schwarzenliste enthalten sind, wie oft sie in den letzten 10 Minuten / Stunde / Tag / Monat getroffen wurden und die Möglichkeit, Elemente einfach hinzuzufügen und zu entfernen.

Sie möchten eine Reihe verschiedener Spam -Erkennungsmodelle und Taktiken kombinieren. Neuronale Netze scheinen ein guter Vorschlag zu sein, und ich würde empfehlen, sich anzusehen Benutzerverhaltensmuster Zusätzlich zu Inhalten. Normale Menschen senden nicht alle 30 Sekunden lang Stapel von 1.000 E -Mails für 12 aufeinanderfolgende Stunden.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange