Pregunta

Busco una biblioteca de Python, que hace Bayesiano de filtrado de spam. Miré a SpamBayes y OpenBayes, pero ambos parecen estar sin mantenimiento (puedo estar equivocado).

Puede alguien sugerir una buena Python (o Clojure, Common Lisp, incluso Rubí) biblioteca que implementa Bayesiano de filtrado de spam?

Gracias de antemano.

Aclaración : en realidad estoy buscando un bayesiano spam Clasificador y no necesariamente un filtro de spam. Sólo quiero entrenarlo utilizando algunos datos y luego dime si algunos datos dada es spam. Lo sentimos por cualquier confusión.

¿Fue útil?

Solución

¿Quieres filtrado de correo no deseado o clasificación bayesiana?

Para la clasificación bayesiana hay una serie de módulos de Python. Estaba revisando recientemente Orange, que se ve muy impresionante. R tiene un número de módulos bayesianas. Puede usar RPY para enganchar en R.

Otros consejos

Trate reverendo . Es un módulo de filtrado de correo no deseado.

RedisBayes se ve bien para mí:

http://pypi.python.org/pypi/redisbayes/0.1.3

En mi experiencia Redis es una adición impresionante a su pila y puede ayudar a procesar los datos a velocidades rápidas en comparación con MySQL, PostgreSQL o cualquier otro RDBMS.

import redis, redisbayes
rb = redisbayes.RedisBayes(redis=redis.Redis())

rb.train('good', 'sunshine drugs love sex lobster sloth')
rb.train('bad', 'fear death horror government zombie god')

assert rb.classify('sloths are so cute i love them') == 'good'
assert rb.classify('i fear god and love the government') == 'bad'

print rb.score('i fear god and love the government')

rb.untrain('good', 'sunshine drugs love sex lobster sloth')
rb.untrain('bad', 'fear death horror government zombie god')

Espero que ayude un poco.

Trate de usar bogofilter , no estoy seguro de cómo se puede utilizar desde Python. Bogofilter está integrado con muchos sistemas de correo, lo que significa una relativa facilidad de interconexión.

SpamBayes es mantenido, y es maduro (es decir, que funciona sin tener que tener nuevo libera todo el tiempo). Lo hará con facilidad lo que quiere. Tenga en cuenta que SpamBayes es solamente libremente bayesiano (que utiliza la combinación de la chi-cuadrado), pero se supone que está buscando cualquier tipo de estadística clasificación basada en token, en lugar de algo específicamente bayesiano.

Un módulo en el kit de herramientas de lenguaje natural Python (NLTK) hace la clasificación bayesiano ingenuo: nltk.classify.naivebayes .

exención de responsabilidad:. sé basura todo sobre la clasificación bayesiana, ingenuo o mundanos

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top