Frage

Ich baue einen binären Klassifikationsbaum gegenseitige Information gewinnen als Splitting-Funktion. Da aber die Trainingsdaten zu einigen Klassen verzerrt wird, ist es ratsam, jedes Trainingsbeispiel durch die inverse Klasse Frequenz gewichten.

Wie gewichten wir die Trainingsdaten? Wenn die Wahrscheinlichkeiten der Berechnung der Entropie abschätzen zu können, muss ich gewichtete Mittelwerte nehmen?

EDIT:. Ich würde einen Ausdruck für die Entropie mit den Gewichten wie

War es hilfreich?

Lösung

Andere Tipps

Der Wikipedia-Artikel, den Sie zitiert geht in Gewichtung. Dort heißt es:

Die gewichteten Varianten
In der traditionellen Formulierung der gegenseitigen Information,

Jedes Ereignis oder Objekt spezifiziert durch (x, y) wird durch die entsprechende Wahrscheinlichkeit p (x, y) gewichtet. Dies setzt voraus, dass alle Objekte oder Ereignisse äquivalent sind abgesehen von ihrer Eintrittswahrscheinlichkeit. Doch in einigen Anwendungen kann es der Fall sein, dass bestimmte Objekte oder Ereignisse bedeutsamer sind als andere, oder dass bestimmte Assoziationsmuster sind semantisch wichtiger als andere.

Beispielsweise kann das deterministische Mapping {(1,1), (2,2), (3,3)} kann als stärker betrachtet werden (durch irgendeine Standard) als das deterministische Mapping {(1,3), ( 2,1), (3,2)}, obwohl diese Beziehungen die gleiche gegenseitige Information ergeben würden. Dies, weil die gegenseitige Information nicht empfindlich überhaupt keine inhärente Reihenfolge in den variablen Werten (Cronbach 1954 Coombs & Dawes 1970 Lockhead 1970) und ist daher nicht empfindlich auf alle auf die Form der relationalen Zuordnung zwischen den zugehörigen Variablen . Wenn es, dass die frühere Beziehung erwünscht ist - zeigt Einigung über alle Variablenwerte - stärker als die spätere Beziehung beurteilt wird, dann ist es möglich, die folgende gewichteten gegenseitige Information (Guiasu 1977) zu verwenden,

alt text

, die ein Gewicht w (x, y) stellt auf der Wahrscheinlichkeit jeden Variablenwert Kookkurrenz, p (x, y). Dies ermöglicht es, dass gewisse Wahrscheinlichkeiten mehr oder weniger Bedeutung als andere tragen, wodurch die Quantifizierung relevanter ganzheitlicher oder prägnanz Faktoren ermöglicht. In dem obigen Beispiel verwendet wird, größere relative Gewichtungen für w (1,1), W (2,2), und W (3,3), würde die Wirkung der Beurteilung größere Aussagekraft für die Beziehung haben, {(1,1), ( 2,2), (3,3)}, als für die Beziehung {(1,3), (2,1), (3,2)}, die in einigen Fällen der Mustererkennung und dergleichen wünschenswert sein können.

http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top