Filtraggio dello spam dai dati recuperati

https://datascience.stackexchange.com/questions/387

16-10-2019
|

Domanda

Una volta ho sentito dire che il filtraggio dello spam utilizzando liste nere non è un approccio buono, dato che qualche ricerca dell'utente per voci nel vostro gruppo di dati può essere alla ricerca di particolari informazioni dalle fonti bloccate. Inoltre sarebbe diventato un peso per convalidare continuamente il stato attuale di ogni spammer bloccato, controllare se il sito / dominio ancora di dati spam disseminate.

Considerato che qualsiasi approccio deve essere efficiente e scalabile, in modo da supportare il filtraggio su grandi insiemi di dati, quali sono le strategie disponibili per sbarazzarsi dello spam in modo non prevenuto?

Modifica :. Se possibile, qualsiasi esempio della strategia, anche se solo l'intuizione dietro di esso, sarebbe molto benvenuto insieme con la risposta

Soluzione

Spam filtraggio, soprattutto in e-mail, è stato rivoluzionato da reti neurali, qui ci sono un paio di documenti che forniscono buona lettura sul tema:

su reti neurali e il futuro del Spam A. C. Cosoi, M. S. Vlad, V. Sgarciu http://ceai.srait.ro/index.php/ceai / article / viewFile / 18/8

intelligente Word-Based Spam Filter Detection Utilizzando Reti multi-Neurali Ann Nosseir, Khaled Nagati e l'Islam Taj-Eddin http://www.ijcsi.org/papers/IJCSI -10-2-1-17-21.pdf

Rilevamento spam utilizzando Adaptive Neural Networks: Adaptive Resonance Theory David Ndumiyana, Richard Gotora e Tarisai Mupamombe http://onlineresearchjournals.org/JPESR/pdf/2013/apr /Ndumiyana%20et%20al.pdf

EDIT: L'intuizione di base dietro utilizzando una rete neurale per aiutare con filtraggio dello spam è fornendo un peso a patti sulla base di quanto spesso sono associati con lo spam.

Le reti neurali possono essere addestrati più rapidamente in un sorvegliati - si fornisce esplicitamente la classificazione della frase nel training set - ambiente. Senza entrare nel merito la parte fondamentale l'idea di base può essere illustrato con queste frasi:

Testo = "Come è la perdita del brevetto Viagra andando ad incidere Pfizer", Spam = false Text = "Viagra Acquista ora", Spam = true Text = "Online pharmacy Viagra Cialis Lipitor", Spam = true

Per una rete neurale a due fasi, la prima fase calcolerà la probabilità dello spam in base al largo di se la parola esiste nella frase. Quindi, dal nostro esempio:

Viagra => 66% buy => 100% Pfizer => 0% etc ..

Quindi per la seconda fase i risultati del primo stadio sono utilizzati come variabili nella seconda fase:

& viagra buy => 100% Pfizer & viagra => 0%

Questa idea di base è gestito per molte delle permutazioni delle tutte le parole dei dati di allenamento. I risultati finali, una volta addestrato è fondamentalmente solo un'equazione che basa il contesto delle parole nella frase può assegnare una probabilità di essere spam. Set spamminess soglia, e il filtro eventuali dati superiore quindi detto soglia.

Altri suggerimenti

Liste nere non sono hanno un valore per una serie di motivi:

Sono facili da installare e scala - è solo un negozio chiave / valore, e si può probabilmente solo ri-usare un po 'della vostra logica caching per l'attuazione di base
A seconda delle dimensioni e del tipo di attacco di spam, non ci sarà probabilmente alcuni termini o URL molto specifici utilizzati. E 'molto più veloce di gettare quel termine in una lista nera di attesa per il vostro modello di adattarsi.
È possibile rimuovere gli elementi altrettanto velocemente come sono stati aggiunti.
Tutti capiscono come funzionano e ogni amministratore li possono utilizzare.

La chiave per combattere lo spam è il monitoraggio . Assicurarsi di avere una sorta di interfaccia che mostra articoli sul lista nera, quanto spesso sono stati colpito negli ultimi 10 minuti / ora / giorno / mese, e la possibilità di aggiungere facilmente e gli elementi da rimuovere.

Ti consigliamo di combinare una serie di diversi modelli di rilevamento dello spam e tattiche. reti neurali sembrano essere un buon suggerimento, e mi consiglia di guardare a modelli di comportamento degli utenti , oltre a solo contenuti. gli esseri umani normali non fanno le cose come lotti di invio di 1.000 email ogni 30 secondi per 12 ore consecutive.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange