我曾经听说,使用黑名单不是一个好方法,因为一些用户在数据集中搜索条目可能正在寻找阻止源的特定信息。同样,它将成为不断验证的负担 当前状态 每个垃圾邮件发送者都被阻塞,检查站点/域是否仍传播垃圾邮件数据。

编辑: :如果可能的话,即使仅仅是其背后的直觉,也非常欢迎策略的任何例子。

有帮助吗?

解决方案

垃圾邮件过滤,尤其是在电子邮件中,已被神经网络彻底改变,以下是几篇论文,可以很好地阅读该主题:

关于神经网络和垃圾邮件AC Cosoi的未来,V。Sgarciu女士http://ceai.srait.ro/index.php/ceai/article/viewfile/18/8

使用多神经网络Ann Nosseir,Khaled Nagati和Islam Taj-Eddin的智能基于单词的垃圾邮件过滤器检测http://www.ijcsi.org/papers/ijcsi-10-2-17-21.pdf

使用自适应神经网络检测垃圾邮件:自适应共振理论David Ndumiyana,Richard Gotora和Tarisai Mupamombe

text =“如何丢失伟哥专利会影响辉瑞”,垃圾邮件= false文本=“立即购买廉价伟哥”,垃圾邮件= true Text =“在线药房伟哥Cialis Lipitor”,spam = true

对于两个阶段的神经网络,第一阶段将根据句子中的单词是否存在垃圾邮件的可能性。因此,根据我们的示例:

伟哥=> 66%购买=> 100%辉瑞=> 0%等。

然后在第二阶段,第一阶段的结果用作第二阶段的变量:

伟哥&buy => 100%辉瑞和伟哥=> 0%

对于培训数据中所有单词的许多排列,都会运行这个基本想法。一旦训练的最终结果基本上只是一个方程式,基于句子中单词的上下文可以分配垃圾邮件的概率。设置垃圾邮件阈值,并滤除更高的任何数据,然后说明阈值。

其他提示

黑名单由于多种原因没有价值:

  1. 它们易于设置和扩展 - 它只是一个关键/值存储,您可能只能重新使用一些缓存逻辑来实现最基本的实现。
  2. 根据垃圾邮件攻击的大小和类型,可能会使用一些非常具体的术语或URL。将该术语扔进黑名单要比等待模型适应要快得多。
  3. 您可以在添加的项目中尽快删除项目。
  4. 每个人都了解他们的工作方式,任何管理员都可以使用它们。

战斗垃圾邮件的关键是 监视. 。 Make sure you have some sort of interface showing which items are on your blacklist, how often they've been hit in the last 10 minutes / hour / day / month, and the ability to easily add and remove items.

用户行为模式

许可以下: CC-BY-SA归因
scroll top