문제

나는 간단한 스팸 필터를 작성해야한다는 데 갇혀있어 내가 어떻게 할 것인지 잘 모르겠습니다.

지금까지 나는 워드리스트 및 도메인 필터링을 생각해 냈으며, 이는 특정 임계 값까지 포인트를 제공하거나 제거 할 것입니다.

예를 들어, 블랙리스트 도메인에서 "v1agr4"에 대해 글을 쓰면 스팸에 대해 2 점을 얻을 수 있지만 hotmail.com 계정에서 "v1agr4"에 대해 글을 쓰면 1 만 얻을 수 있습니다. "스팸 지점".

다른 제안 / ressources가 있습니까?

이것은 기업 학년을 개발하는 것보다 스팸 필터를 학습하는 것입니다.

도움이 되었습니까?

해결책

정말 좋은 알고리즘 정보는 다음과 같습니다.

http://www.paulgraham.com/spam.html

http://www.paulgraham.com/better.html

그러나 진지하게, 왜 바퀴를 재창조합니까?

K9를 다운로드하기 만하면됩니다. http://keir.net/k9.html

다른 팁

베이지안 스팸 필터링과 관련된 일부 오픈 소스 Java 프로젝트 (LFSR 컨설팅에서 언급 한) :

그리고 C ++를위한 추가 :

들여다보다 베이지안 스팸 필터링.

나는 Perl에 라이브러리가 있다는 것을 알고 있으므로 Java도 하나도있을 것이라고 생각합니다.

분산 서비스에이를 위임 할 수 있습니다. Akismet 아주 좋은 솔루션입니다.

스팸 필터를 작성하면 확장성에 대한 요구에 따라 다릅니다.

확장 가능한 솔루션을 원한다면 콘텐츠 필터링은 아마도 CPU 및 메모리 소비이기 때문에 스마트 한 선택이 아니며 대신 CPU가 더 친숙 할 것입니다. 서버에서도 쓰기가 훨씬 쉽습니다.

나는 a 내 블로그의 게시물 이는 프로그래머의 관점에서 스팸 필터를 작성하는 아이디어를 설명하고 컨텐츠 기반 필터링에서 블랙리스트 기반 필터링에 이르기까지 모든 옵션을 다룹니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top