我正在寻找一Python库,并贝垃圾邮件过滤。我看着SpamBayes和OpenBayes,但两者似乎是维护(我可能是错的).

任何人都可以建议一个很好的蟒蛇(或质量的技术资源,共同口齿不清,即使是红宝石)图书馆实现了贝垃圾邮件过滤?

在此先感谢。

澄清:实际上我在寻找一个 贝垃圾邮件的分类 并不一定是一个垃圾邮件过滤器。我只是想要训练使用的一些数据后来告诉我是否有一些给出的数据是垃圾邮件。对不起任何混淆。

有帮助吗?

解决方案

你想垃圾邮件过滤或贝叶斯分类?

有关贝叶斯分类有许多的Python模块。我只是最近审查橙色这看起来非常令人印象深刻。 R具有数贝叶斯模块。可以使用 RPY 挂接到R上。

其他提示

尝试牧师 。这是一个垃圾邮件过滤模块。

RedisBayes看起来不错,对我说:

http://pypi.python.org/pypi/redisbayes/0.1.3

在我的经验的Redis是一个真棒除了你的筹码,可以在比较MySQL和PostgreSQL或任何其他RDBMS极快的速度帮助处理数据。

import redis, redisbayes
rb = redisbayes.RedisBayes(redis=redis.Redis())

rb.train('good', 'sunshine drugs love sex lobster sloth')
rb.train('bad', 'fear death horror government zombie god')

assert rb.classify('sloths are so cute i love them') == 'good'
assert rb.classify('i fear god and love the government') == 'bad'

print rb.score('i fear god and love the government')

rb.untrain('good', 'sunshine drugs love sex lobster sloth')
rb.untrain('bad', 'fear death horror government zombie god')

希望有所帮助一点。

尝试使用 bogofilter ,我不知道它如何从Python中使用。 Bogofilter集成了许多邮件系统,这意味着相对容易对接。

SpamBayes 维持,并且是成熟的(即,它的工作原理,而不必具有新释放所有的时间)。它会很容易地做你想做的。需要注意的是SpamBayes只是松散的贝叶斯(它使用卡方合并),但想必你是任何类型的统计基于令牌的分类之后,而不是一些具体的贝叶斯。

一个模块中的蟒蛇的自然语言的工具包(nltk)不天真的贝分类: nltk.classify.naivebayes.

免责声明: 我知道垃圾所有有关贝叶斯的分类,幼稚的或世俗的。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top