Decision Trees calibrati utilizzando Entropy
-
16-09-2019 - |
Domanda
Sto costruendo un albero di classificazione binaria utilizzando informazione reciproca guadagno come la funzione di splitting. Ma dal momento che i dati di formazione è inclinato verso alcune classi, si consiglia di ponderare ogni esempio di formazione per la frequenza della classe inversa.
Come faccio a peso i dati di allenamento? Nel calcolo delle probabilità per stimare l'entropia, fare prendo medie ponderate?
EDIT:. Mi piacerebbe un'espressione per l'entropia con i pesi
Soluzione
Stato-valore entropia ponderato come misura del rischio di investimento.
http: //www56.homepage.villanova. edu / david.nawrocki / Stato% 20Weighted% 20Entropy% 20Nawrocki% 20Harding.pdf
Altri suggerimenti
L'articolo di Wikipedia che hai citato va in ponderazione. Dice:
varianti calibrati
Nella formulazione tradizionale della informazione reciproca,
ogni evento o oggetto specificato da (x, y) viene ponderata dal corrispondente probabilità p (x, y). Ciò presuppone che tutti gli oggetti o eventi sono equivalenti a parte la loro probabilità di accadimento. Tuttavia, in alcune applicazioni può essere il caso che certi oggetti o eventi sono più importanti di altre, o che certi schemi di associazione sono semanticamente più importanti di altri.
Ad esempio, la mappatura deterministica {(1,1), (2,2), (3,3)} può essere visto come più forte (da alcuni standard) rispetto alla mappatura deterministica {(1,3), ( 2,1), (3,2)}, anche se queste relazioni produrrebbe la stessa informazione reciproca. Questo perché l'informazione reciproca non è sensibile affatto alcun ordinamento inerente i valori delle variabili (Cronbach 1954, Coombs & Dawes 1970 Lockhead 1970), e pertanto non è sensibile a tutti alla forma della mappatura relazionale tra le variabili associate . Se si desidera che il primo rapporto - mostrando accordo su tutti i valori delle variabili - essere giudicata più forte del rapporto tardi, allora è possibile utilizzare la seguente informazione mutua ponderata (Guiasu 1977)
che pone un peso w (x, y) sulla probabilità di ogni valore variabile co-occorrenza, p (x, y). Questo permette che certe probabilità possono portare più o meno importanza di altri, consentendo in tal modo la quantificazione dei relativi fattori olistici o pregnanza. Nell'esempio di cui sopra, utilizzando pesi relativi più grandi per w (1,1), w (2,2), e w (3,3) avrebbe l'effetto di valutare maggiore informatività per la relazione {(1,1), ( 2,2), (3,3)} che per la relazione {(1,3), (2,1), (3,2)}, che può essere desiderabile in alcuni casi di pattern recognition, e simili.
http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants