문제

베이지안 스팸 필터링을하는 파이썬 라이브러리를 찾고 있습니다. 나는 Spambayes와 Openbayes를 보았지만 둘 다 인정한 것 같다 (나는 틀렸을 수도있다).

베이지안 스팸 필터링을 구현하는 좋은 파이썬 (또는 Clojure, Common Lisp, 심지어 Ruby) 라이브러리를 제안 할 수 있습니까?

미리 감사드립니다.

설명: 나는 실제로 찾고있다 베이지안 스팸 분류기 반드시 스팸 필터는 아닙니다. 일부 데이터를 사용하여 교육하고 나중에 주어진 데이터가 스팸인지 알려줍니다. 혼란에 대해 죄송합니다.

도움이 되었습니까?

해결책

스팸 필터링 또는 베이지안 분류를 원하십니까?

베이지안 분류에는 여러 개의 파이썬 모듈이 있습니다. 나는 최근에 방금 검토하고 있었다 주황색 매우 인상적입니다. R에는 많은 베이지안 모듈이 있습니다. 당신이 사용할 수있는 rpy R에 연결하려면

다른 팁

노력하다 목사. 스팸 필터링 모듈입니다.

Redisbayes는 나에게 잘 어울립니다.

http://pypi.python.org/pypi/redisbayes/0.1.3

내 경험상 Redis는 스택에 멋진 추가 기능이며 MySQL, PostgreSQL 또는 기타 RDBMS에 비해 타오르는 빠른 속도로 데이터를 처리하는 데 도움이 될 수 있습니다.

import redis, redisbayes
rb = redisbayes.RedisBayes(redis=redis.Redis())

rb.train('good', 'sunshine drugs love sex lobster sloth')
rb.train('bad', 'fear death horror government zombie god')

assert rb.classify('sloths are so cute i love them') == 'good'
assert rb.classify('i fear god and love the government') == 'bad'

print rb.score('i fear god and love the government')

rb.untrain('good', 'sunshine drugs love sex lobster sloth')
rb.untrain('bad', 'fear death horror government zombie god')

그것이 조금 도움이되기를 바랍니다.

사용하려고 노력하십시오 bogofilter, 파이썬에서 어떻게 사용할 수 있는지 잘 모르겠습니다. Bogofilter는 많은 메일 시스템과 통합되어 상대적으로 인터페이스가 쉽습니다.

Spambayes ~이다 유지되고 성숙합니다 (즉, 항상 새로운 릴리스가 필요없이 작동합니다). 그것은 당신이 원하는 것을 쉽게 할 것입니다. Spambayes는 느슨하게 베이지안 (카이 제곱 결합을 사용합니다)이지만, 특히 베이지안이 아닌 어떤 종류의 통계 토큰 기반 분류를 겪고있을 것입니다.

Python Natural Language Toolkit (NLTK)의 모듈은 Naïve Bayesian 분류를 수행합니다. nltk.classify.naivebayes.

부인 성명: 나는 베이지안 분류, 순진하거나 세상적인 분류에 관한 모든 것을 알고 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top