bibliothèque de filtrage anti-spam bayésien pour Python
-
05-09-2019 - |
Question
Je cherche une bibliothèque Python qui ne bayésien filtrage anti-spam. Je regardais SpamBayes et OpenBayes, mais les deux semblent être non maintenus (je peux me tromper).
Quelqu'un peut-il suggérer un bon Python (ou Clojure, Common Lisp, même Ruby) bibliothèque qui implémente le filtrage bayésien Spam?
Merci d'avance.
Précision : Je suis à la recherche d'un Spam classificateur bayésien et pas nécessairement un filtre anti-spam. Je veux juste former à l'aide des données et plus tard me dire si certaines données donné est un spam. Désolé pour la confusion.
La solution
Voulez-vous le filtrage de spam ou de classification bayésienne?
Pour la classification bayésienne il y a un certain nombre de modules Python. Je viens en revue récemment orange qui a l'air très impressionnant. R a un certain nombre de modules de Bayes. Vous pouvez utiliser Rpy pour accrocher dans R.
Autres conseils
révérend . Il est un module de filtrage anti-spam.
RedisBayes me semble bon:
http://pypi.python.org/pypi/redisbayes/0.1.3
Dans mon expérience Redis est un ajout impressionnant à votre pile et peut aider à traiter des données à des vitesses fulgurantes rapides par rapport à MySQL, PostgreSQL ou tout autre SGBDR.
import redis, redisbayes
rb = redisbayes.RedisBayes(redis=redis.Redis())
rb.train('good', 'sunshine drugs love sex lobster sloth')
rb.train('bad', 'fear death horror government zombie god')
assert rb.classify('sloths are so cute i love them') == 'good'
assert rb.classify('i fear god and love the government') == 'bad'
print rb.score('i fear god and love the government')
rb.untrain('good', 'sunshine drugs love sex lobster sloth')
rb.untrain('bad', 'fear death horror government zombie god')
L'espoir qui aide un peu.
Essayez d'utiliser bogofilter , je ne sais pas comment il peut être utilisé à partir de Python. Bogofilter est intégré à de nombreux systèmes de messagerie, ce qui signifie une relative facilité d'interfaçage.
SpamBayes est maintenu, et est arrivé à maturité (il fonctionne sans avoir à nouveau libère tout le temps). Il facilement faire ce que vous voulez. Notez que SpamBayes est seulement vaguement bayésien (il utilise la combinaison carré-chi), mais on peut supposer que vous êtes après une sorte de classement par jeton statistique, plutôt que quelque chose spécifiquement bayésienne.
Un module dans la boîte à outils de langage naturel Python (de NLTK) fait classification bayésienne naïve: nltk.classify.naivebayes
.
Disclaimer:. Je sais merde tout au sujet de la classification bayésienne, naïve ou du monde