Question

Je cherche une bibliothèque Python qui ne bayésien filtrage anti-spam. Je regardais SpamBayes et OpenBayes, mais les deux semblent être non maintenus (je peux me tromper).

Quelqu'un peut-il suggérer un bon Python (ou Clojure, Common Lisp, même Ruby) bibliothèque qui implémente le filtrage bayésien Spam?

Merci d'avance.

Précision : Je suis à la recherche d'un Spam classificateur bayésien et pas nécessairement un filtre anti-spam. Je veux juste former à l'aide des données et plus tard me dire si certaines données donné est un spam. Désolé pour la confusion.

Était-ce utile?

La solution

Voulez-vous le filtrage de spam ou de classification bayésienne?

Pour la classification bayésienne il y a un certain nombre de modules Python. Je viens en revue récemment orange qui a l'air très impressionnant. R a un certain nombre de modules de Bayes. Vous pouvez utiliser Rpy pour accrocher dans R.

Autres conseils

révérend . Il est un module de filtrage anti-spam.

RedisBayes me semble bon:

http://pypi.python.org/pypi/redisbayes/0.1.3

Dans mon expérience Redis est un ajout impressionnant à votre pile et peut aider à traiter des données à des vitesses fulgurantes rapides par rapport à MySQL, PostgreSQL ou tout autre SGBDR.

import redis, redisbayes
rb = redisbayes.RedisBayes(redis=redis.Redis())

rb.train('good', 'sunshine drugs love sex lobster sloth')
rb.train('bad', 'fear death horror government zombie god')

assert rb.classify('sloths are so cute i love them') == 'good'
assert rb.classify('i fear god and love the government') == 'bad'

print rb.score('i fear god and love the government')

rb.untrain('good', 'sunshine drugs love sex lobster sloth')
rb.untrain('bad', 'fear death horror government zombie god')

L'espoir qui aide un peu.

Essayez d'utiliser bogofilter , je ne sais pas comment il peut être utilisé à partir de Python. Bogofilter est intégré à de nombreux systèmes de messagerie, ce qui signifie une relative facilité d'interfaçage.

SpamBayes est maintenu, et est arrivé à maturité (il fonctionne sans avoir à nouveau libère tout le temps). Il facilement faire ce que vous voulez. Notez que SpamBayes est seulement vaguement bayésien (il utilise la combinaison carré-chi), mais on peut supposer que vous êtes après une sorte de classement par jeton statistique, plutôt que quelque chose spécifiquement bayésienne.

Un module dans la boîte à outils de langage naturel Python (de NLTK) fait classification bayésienne naïve: nltk.classify.naivebayes .

Disclaimer:. Je sais merde tout au sujet de la classification bayésienne, naïve ou du monde

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top