从检索到的数据中过滤垃圾邮件

https://datascience.stackexchange.com/questions/387

16-10-2019
|

题

我曾经听说，使用黑名单不是一个好方法，因为一些用户在数据集中搜索条目可能正在寻找阻止源的特定信息。同样，它将成为不断验证的负担 当前状态 每个垃圾邮件发送者都被阻塞，检查站点/域是否仍传播垃圾邮件数据。

编辑: ：如果可能的话，即使仅仅是其背后的直觉，也非常欢迎策略的任何例子。

解决方案

垃圾邮件过滤，尤其是在电子邮件中，已被神经网络彻底改变，以下是几篇论文，可以很好地阅读该主题：

关于神经网络和垃圾邮件AC Cosoi的未来，V。Sgarciu女士http://ceai.srait.ro/index.php/ceai/article/viewfile/18/8

使用多神经网络Ann Nosseir，Khaled Nagati和Islam Taj-Eddin的智能基于单词的垃圾邮件过滤器检测http://www.ijcsi.org/papers/ijcsi-10-2-17-21.pdf

使用自适应神经网络检测垃圾邮件：自适应共振理论David Ndumiyana，Richard Gotora和Tarisai Mupamombe

text =“如何丢失伟哥专利会影响辉瑞”，垃圾邮件= false文本=“立即购买廉价伟哥”，垃圾邮件= true Text =“在线药房伟哥Cialis Lipitor”，spam = true

对于两个阶段的神经网络，第一阶段将根据句子中的单词是否存在垃圾邮件的可能性。因此，根据我们的示例：

伟哥=> 66％购买=> 100％辉瑞=> 0％等。

然后在第二阶段，第一阶段的结果用作第二阶段的变量：

伟哥＆buy => 100％辉瑞和伟哥=> 0％

对于培训数据中所有单词的许多排列，都会运行这个基本想法。一旦训练的最终结果基本上只是一个方程式，基于句子中单词的上下文可以分配垃圾邮件的概率。设置垃圾邮件阈值，并滤除更高的任何数据，然后说明阈值。

其他提示

黑名单由于多种原因没有价值：

它们易于设置和扩展 - 它只是一个关键/值存储，您可能只能重新使用一些缓存逻辑来实现最基本的实现。
根据垃圾邮件攻击的大小和类型，可能会使用一些非常具体的术语或URL。将该术语扔进黑名单要比等待模型适应要快得多。
您可以在添加的项目中尽快删除项目。
每个人都了解他们的工作方式，任何管理员都可以使用它们。

战斗垃圾邮件的关键是监视. 。 Make sure you have some sort of interface showing which items are on your blacklist, how often they've been hit in the last 10 minutes / hour / day / month, and the ability to easily add and remove items.

用户行为模式

许可以下： CC-BY-SA 和归因

不隶属于 datascience.stackexchange