Perché usiamo il guadagno di informazioni su accuratezza come criterio di suddivisione in albero di decisione?

https://datascience.stackexchange.com/questions/14433

16-10-2019
|

Domanda

In albero classificatore decisione più degli algoritmi usano ottenere informazioni come spiting criterio. Selezioniamo la funzione con il massimo guadagno informazioni per dividere su.

Credo che l'uso di precisione, invece di guadagno informazioni è l'approccio più semplice. C'è qualche scenario in cui la precisione non funziona e aumento di informazioni fa?

Qualcuno può spiegare quali sono i vantaggi di usare ottenere informazioni su accuratezza come criterio di divisione?

Soluzione

Gli alberi di decisione sono generalmente inclini a un eccesso di montaggio e la precisione non generalizzare bene ai dati invisibili. Uno dei vantaggi di guadagno informazione è che - a causa del fattore di $ -p * log (p) $ nella definizione entropia - foglie con un piccolo numero di casi vengono assegnati meno peso ($ lim_ {p \ rightarrow 0 ^ {+ }} p * log (p) = 0 $) e favorisce dividere i dati in gruppi più grandi, ma omogenei. Questo approccio è in genere più stabile e sceglie anche le caratteristiche più impattanti vicino alla radice dell'albero.

EDIT: La precisione è di solito un problema con i dati sbilanciati. Considerate questo esempio giocattolo:

Weather Wind    Outcome
Sunny   Weak    YES
Sunny   Weak    YES
Rainy   Weak    YES
Cloudy  Medium  YES
Rainy   Medium  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO
Rainy   Strong  NO

Meteo e vento sia produrre una sola etichetta corretto quindi hanno la stessa precisione di 16/17. Tuttavia, data questi dati, noi assumiamo che venti deboli (75% YES) sono più predittiva di un esito positivo di tempo soleggiato (50% YES). Cioè, il vento ci insegna di più su entrambi i risultati. Dato che ci sono solo pochi punti di dati per i risultati positivi privilegiamo vento sopra del tempo, perché il vento è più predittiva sul set di etichette più piccola che ci auguriamo di darci una regola che è più robusta per i nuovi dati.

L'entropia del risultato è di $ -4/17 * log_2 (4/17) -14/17 * log_2 (14/17)) = 0,72 $. L'entropia per il clima e l'esito è di $ 14/17 * (- 1/14 * log_2 (1/14) -13/14 * log_2 (13/14)) = 0,31 $ che porta ad un guadagno di informazioni di $ 0.41 $. Allo stesso modo, il vento dà un'informazione più alto guadagno di $ 0,6 $.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange