Pergunta ingênua de filtro de spam bayesiano

https://stackoverflow.com/questions/2617976

26-09-2019
|

Pergunta

Estou planejando implementar o filtro de spam usando o modelo de classificação bayesiano ingênuo.

Online, vejo muitas informações sobre a classificação ingênua bayesiana, mas o problema é muitas coisas matemáticas, do que claramente afirmar como é feito. E o problema é que sou mais um programador do que um matemático (Sim, eu aprendi probabilidade e teorema bayesiano de volta à escola, mas fora de contato por um longo tempo, e não tenho luxo de aprendê-lo agora (tenho quase três semanas para se apresentar com um protótipo de trabalho)).

Portanto, se alguém puder me explicar ou me apontar para o local onde é explicado para programadores do que um matemático, seria uma grande ajuda.

PS: A propósito, tenho que implementá -lo em C, se você quiser saber. :(

Atenciosamente, Microkernel

Solução

O livro Inteligência coletiva de programação tem capítulo que cobre este e outros métodos. O capítulo (#6) pode ser entendido sem referência aos capítulos anteriores, é escrito claramente e discute apenas a matemática mínima necessária para realizar o trabalho.

Outras dicas

Você poderia tentar isso local na rede Internet. Tem algum código -fonte.

Eu recomendo Tutoriais de Andrew Moore E eu acho que você deveria começar com Este.

Você também pode dar uma olhada em Popfile, um motor de filtro de spam de código aberto.

Você já olhou para o dspam?

http://dspam.irontec.com/faq.shtml#1.0

http://www.nuclearelephant.com/

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow