Filtrage bayésien du spam orienté objet ?
-
08-06-2019 - |
Question
Je me demandais s'il existe une bonne et propre implémentation de programmation orientée objet (POO) du filtrage bayésien pour la classification du spam et du texte ?C'est juste à des fins d'apprentissage.
La solution
Je recommande définitivement Weka qui est un Logiciel d'exploration de données open source écrit en Java :
Weka est une collection d'algorithmes d'apprentissage automatique pour les tâches d'exploration de données.Les algorithmes peuvent être appliqués directement à un ensemble de données ou appelés à partir de votre propre code Java.Weka contient des outils pour le prétraitement des données, la classification, la régression, le clustering, les règles d'association et la visualisation.Il est également bien adapté au développement de nouveaux programmes d’apprentissage automatique.
Comme mentionné ci-dessus, il est livré avec de nombreux classificateurs différents comme SVM, Vanner, C4.5, Naive Bayes (bien sûr) et bien d'autres (voir le Documentation API).Notez que de nombreux classificateurs sont connus pour avoir bien meilleures performances que Naive Bayes dans le domaine de la détection de spam ou de la classification de textes.
De plus, Weka vous apporte un très interface graphique puissante…
Autres conseils
Découvrez le chapitre 6 de Programmation de l'intelligence collective
Peut être https://ci-bayes.dev.java.net/ ou http://www.cs.cmu.edu/~javabayes/Home/node2.html?
Je n'ai jamais joué avec non plus.
Voici une implémentation du filtrage bayésien en C# : Un filtre anti-spam bayésien naïf pour C# (hébergé sur CodeProject).
nBayes - une autre implémentation C# hébergée sur CodePlex
En français, mais vous devriez pouvoir trouver le lien de téléchargement :)Filtre bayésien naïf PHP