Pregunta

Me preguntaba si existe alguna implementación de programación orientada a objetos (POO) buena y limpia del filtrado bayesiano para la clasificación de texto y spam.Esto es sólo para fines de aprendizaje.

¿Fue útil?

Solución

Definitivamente lo recomiendo Weka que es un Software de minería de datos de código abierto escrito en Java:

Weka es una colección de algoritmos de aprendizaje automático para tareas de minería de datos.Los algoritmos pueden aplicarse directamente a un conjunto de datos o llamarse desde su propio código Java.Weka contiene herramientas para preprocesamiento, clasificación, regresión, agrupación, reglas de asociación y visualización de datos.También es muy adecuado para desarrollar nuevos esquemas de aprendizaje automático.

Como se mencionó anteriormente, se envía con un montón de clasificadores diferentes como SVM, Aventar, C4.5, Naive Bayes (por supuesto) y muchos más (ver el documento API).Tenga en cuenta que se sabe que muchos clasificadores tienen mucho mejor rendimiento que Naive Bayes en el campo de la detección de spam o clasificación de textos.

Además Weka te trae una muy potente interfaz gráfica de usuario

Otros consejos

Consulte el Capítulo 6 de Programación de Inteligencia Colectiva

Aquí hay una implementación del filtrado bayesiano en C#: Un ingenuo filtro de spam bayesiano para C# (alojado en CodeProject).

nBayes - otra implementación de C# alojada en CodePlex

En francés, pero deberías poder encontrar el enlace de descarga :)Filtro bayesiano ingenuo de PHP

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top