Question

J'ai un problème de classification dans la main, que j'aimerais aborder avec un algorithme d'apprentissage automatique (Bayes ou Markovian probablement, la question est indépendante du classifieur à utiliser). Compte tenu de plusieurs instances de formation, je cherche un moyen de mesurer les performances d'un classificateur implémenté, en tenant compte du problème de surajustement des données.

C’est-à-dire: étant donné que N [1..100] échantillons d’entraînement, si j’exécute l’algorithme d’entraînement sur chacun des échantillons et que j’utilise ces mêmes échantillons pour mesurer l’aptitude, cela risque de provoquer un problème de sur-adaptation des données: Le classifieur connaîtra les réponses exactes pour les instances d’entraînement, sans disposer de beaucoup de pouvoir prédictif, rendant les résultats de condition physique inutiles.

Une solution évidente consisterait à séparer les échantillons étiquetés à la main en formations et à tester des échantillons; et j'aimerais connaître les méthodes de sélection des échantillons statistiquement significatifs à des fins de formation.

Livres blancs, pointeurs de livres et PDF très appréciés!

Était-ce utile?

La solution

Vous pouvez utiliser la validation croisée par 10 fois . Je crois que c’est une approche plutôt standard pour l’évaluation des performances des algorithmes de classification.

L’idée de base est de diviser vos échantillons d’apprentissage en 10 sous-ensembles. Utilisez ensuite un sous-ensemble pour les données de test et d’autres pour les données de train. Répétez cette opération pour chaque sous-ensemble et calculez les performances moyennes à la fin.

Autres conseils

Comme M. Brownstone l’a dit, une validation croisée sur 10 est probablement la meilleure voie à suivre. J'ai récemment eu à évaluer les performances de différents classificateurs pour ce faire. Weka . Qui a une API et une charge d'outils qui vous permettent de tester facilement les performances de nombreux classificateurs.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top