Pergunta

Eu queria saber se existe alguma implementação boa e limpa de programação orientada a objetos (OOP) de filtragem bayesiana para spam e classificação de texto?Isto é apenas para fins de aprendizagem.

Foi útil?

Solução

Eu definitivamente recomendo Weka que é um Software de mineração de dados de código aberto escrito em Java:

Weka é uma coleção de algoritmos de aprendizado de máquina para tarefas de mineração de dados.Os algoritmos podem ser aplicados diretamente a um conjunto de dados ou chamados a partir do seu próprio código Java.Weka contém ferramentas para pré-processamento de dados, classificação, regressão, clustering, regras de associação e visualização.Também é adequado para desenvolver novos esquemas de aprendizado de máquina.

Como mencionado acima, ele vem com vários classificadores diferentes, como SVM, Joeirar, C4.5, Naive Bayes (é claro) e muitos mais (veja o Documento da API).Observe que muitos classificadores são conhecidos por terem desempenho muito melhor do que Naive Bayes na área de detecção de spam ou classificação de texto.

Além disso, Weka traz para você um muito GUI poderosa

Outras dicas

Confira o Capítulo 6 de Programando Inteligência Coletiva

Aqui está uma implementação de filtragem bayesiana em C#: Um filtro de spam bayesiano ingênuo para C# (hospedado no CodeProject).

nBayes - outra implementação C# hospedada no CodePlex

Em francês, mas você deve conseguir encontrar o link para download :)Filtro Bayesiano Ingênuo PHP

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top