Pergunta ingênua de filtro de spam bayesiano
-
26-09-2019 - |
Pergunta
Estou planejando implementar o filtro de spam usando o modelo de classificação bayesiano ingênuo.
Online, vejo muitas informações sobre a classificação ingênua bayesiana, mas o problema é muitas coisas matemáticas, do que claramente afirmar como é feito. E o problema é que sou mais um programador do que um matemático (Sim, eu aprendi probabilidade e teorema bayesiano de volta à escola, mas fora de contato por um longo tempo, e não tenho luxo de aprendê-lo agora (tenho quase três semanas para se apresentar com um protótipo de trabalho)).
Portanto, se alguém puder me explicar ou me apontar para o local onde é explicado para programadores do que um matemático, seria uma grande ajuda.
PS: A propósito, tenho que implementá -lo em C, se você quiser saber. :(
Atenciosamente, Microkernel
Solução
O livro Inteligência coletiva de programação tem capítulo que cobre este e outros métodos. O capítulo (#6) pode ser entendido sem referência aos capítulos anteriores, é escrito claramente e discute apenas a matemática mínima necessária para realizar o trabalho.
Outras dicas
Você poderia tentar isso local na rede Internet. Tem algum código -fonte.
Eu recomendo Tutoriais de Andrew Moore E eu acho que você deveria começar com Este.
Você também pode dar uma olhada em Popfile, um motor de filtro de spam de código aberto.