取得したデータからスパムのフィルタリング

https://datascience.stackexchange.com/questions/387

16-10-2019
|

質問

一部のユーザーがデータセットでエントリを検索している場合、ブロックされたソースから特定の情報を探している可能性があるため、ブラックリストを使用してスパムをフィルタリングすることは適切なアプローチではないと聞きました。また、継続的に検証する負担になります 現在の状態 各スパマーがブロックされており、サイト/ドメインがまだスパムデータを広めるかどうかを確認します。

非常に大きなデータセットでのフィルタリングをサポートするために、アプローチが効率的かつスケーラブルでなければならないことを考慮すると、バイアスではない方法でスパムを取り除くために利用可能な戦略は何ですか？

編集: ：可能であれば、戦略の例は、たとえその背後にある直感だけであっても、答えとともに大歓迎です。

解決

特に電子メールでのスパムフィルタリングは、ニューラルネットワークによって革命されています。ここに、このテーマに関する良い読み物を提供するいくつかの論文があります。

ニューラルネットワークとスパムACコソイの未来、MS VLAD、V。SGARCIUhttp://ceai.srait.ro/index.php/ceai/article/viewfile/18/8

マルチネーラルネットワークを使用したインテリジェントワードベースのスパムフィルター検出アンノスシール、カレドナガティ、イスラムタージン - エディンhttp://www.ijcsi.org/papers/ijcsi-10-2-1-17-21.pdf

適応ニューラルネットワークを使用したスパム検出：適応型共鳴理論David Ndumiyana、Richard Gotora、およびTarisai Mupamombehttp://onlineresearchjournals.org/jpesr/pdf/2013/apr/ndumiyana%20et%20al.pdf

編集：ニューラルネットワークを使用してスパムフィルタリングに役立つ基本的な直観は、スパムに関連する頻度に基づいて条件に重みを提供することです。

ニューラルネットワークは、最も迅速にトレーニングを行うことができます - トレーニングセットの環境で文の分類を明示的に提供します。核心のざらざらに入らないと、これらの文章で基本的なアイデアを示すことができます。

text = "バイアグラの特許の損失はファイザーに影響を与えますか？"、spam = false text = "cheap viagra buy now"、spam = true text = "online pharmacy viagra cialis lipitor"、spam = true

2段階のニューラルネットワークの場合、最初の段階は、文に単語が存在するかどうかに基づいてスパムの可能性を計算します。だから私たちの例から：

viagra => 66％buy => 100％pfizer => 0％など..

次に、第2段階では、第1段階の結果が第2段階の変数として使用されます。

バイアグラ＆バイ=> 100％ファイザーとバイアグラ=> 0％

この基本的なアイデアは、トレーニングデータのすべての単語の順列の多くに対して実行されます。一度トレーニングされた最終結果は、基本的には、文の単語のコンテキストに基づいた方程式にすぎません。スパミネスのしきい値を設定し、上記のしきい値よりも高いデータを除外します。

他のヒント

ブラックリストにはいくつかの理由で価値がありません。

セットアップとスケーリングは簡単です。これは単なるキー/バリューストアであり、おそらく最も基本的な実装のためにキャッシュロジックの一部を再利用できます。
スパム攻撃のサイズとタイプに応じて、おそらくいくつかの非常に具体的な用語またはURLが使用されています。モデルが適応するのを待つよりも、その用語をブラックリストに投げる方がはるかに速いです。
アイテムを追加したのと同じくらい速く削除できます。
誰もが彼らがどのように働いているかを理解し、どの管理者もそれらを使用できることを理解しています。

スパムと戦うための鍵はです モニタリング. 。ブラックリストに載っているアイテム、過去10分 / 1日 /日 /日にヒットした頻度、およびアイテムを簡単に追加および削除する機能を示す、ある種のインターフェイスがあることを確認してください。

さまざまなスパム検出モデルと戦術を組み合わせることができます。ニューラルネットは良い提案のようです、そして私は見ることをお勧めします ユーザーの行動パターン コンテンツだけに加えて。通常の人間は、12時間連続で30秒ごとに1,000メールのバッチを送信するようなことをしません。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange