Décision pondérée arbres à l'aide Entropy
-
16-09-2019 - |
Question
Je construis un arbre de classification binaire en utilisant que la fonction de séparation. Mais puisque les données de formation est dirigé vers un petit nombre de classes, il est conseillé de poids chaque exemple de formation par la fréquence de classe inverse.
Comment pondérer les données de formation? Lors du calcul des probabilités d'estimer l'entropie, que je prends des moyennes pondérées?
EDIT:. Je voudrais une expression de l'entropie avec les poids
La solution
entropie pondérée de la valeur de l'Etat en tant que mesure du risque d'investissement. http: //www56.homepage.villanova. edu / david.nawrocki / État% 20Weighted% 20Entropy% 20Nawrocki% 20Harding.pdf
Autres conseils
L'article de Wikipedia, cité va dans la pondération. Il dit:
variantes pondérées Dans la formulation traditionnelle de l'information mutuelle,
chaque événement ou objet spécifié par (x, y) est pondérée par la probabilité correspondante p (x, y). Cela suppose que tous les objets ou les événements sont équivalents en dehors de leur probabilité d'occurrence. Cependant, dans certaines applications, il peut être le cas que certains objets ou événements sont plus importants que d'autres, ou que certains modèles d'association sont plus importants que d'autres sémantiquement.
Par exemple, la mise en correspondance déterministe {(1,1), (2,2), (3,3)} peut être considérée comme plus forte (par une norme) que la mise en correspondance déterministe {(1,3), ( 2,1), (3,2)}, bien que ces relations produiraient les mêmes informations mutuelle. En effet, l'information mutuelle n'est pas sensible du tout à un ordre inhérent aux valeurs variables (Cronbach 1954, Coombs & Dawes 1970, Lockhead 1970), et est donc pas sensible du tout à la forme du relationnel entre les variables associées . Si l'on souhaite que l'ancienne relation - accord montrant toutes les valeurs variables - être jugée plus forte que la relation plus tard, il est alors possible d'utiliser l'information mutuelle pondérées suivantes (Guiasu 1977)
qui place un poids w (x, y) sur la probabilité de chaque valeur de la variable de co-occurrence, p (x, y). Cela permet que certaines probabilités peuvent porter plus ou moins d'importance que d'autres, permettant ainsi à la quantification des facteurs globaux ou prégnance pertinents. Dans l'exemple ci-dessus, en utilisant de plus grands coefficients de pondération W (1,1), W (2,2), et w (3,3) aurait pour effet d'évaluer plus informatif pour la relation {(1,1), ( 2,2), (3,3)} pour que la relation {(1,3), (2,1), (3,2)}, ce qui peut être souhaitable dans certains cas de reconnaissance de formes, et analogues.
http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants