Domanda

Sto cercando di usare il pacchetto di foreste casuali per la classificazione in R.

Le misure di importanza variabile elencate sono:

  • Punteggio di importanza grezza media della variabile X per la classe 0
  • Punteggio di importanza grezza media della variabile X per la classe 1
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

Ora so cosa "significano" come in cui conosco le loro definizioni. Quello che voglio sapere è come usarli.

Quello che voglio veramente sapere è ciò che questi valori significano solo nel contesto di quanto siano precisi, qual è un buon valore, che valore è un cattivo valore, quali sono i massimi e i minimi, ecc.

Se una variabile ha un alto MeanDecreaseAccuracy o MeanDecreaseGini Significa che è importante o poco importante? Anche qualsiasi informazione sui punteggi grezzi potrebbe essere utile. Voglio sapere tutto ciò che c'è da sapere su questi numeri che sono rilevanti per l'applicazione di essi.

Una spiegazione che utilizza le parole "errore", "somma" o "permutata" sarebbe meno utile di una spiegazione più semplice che non ha comportato alcuna discussione su come funzionano le foreste casuali.

Come se volessi che qualcuno mi spiegasse come usare una radio, non mi aspetterei che la spiegazione coinvolgesse come una radio converte le onde radio in suono.

È stato utile?

Soluzione

Una spiegazione che utilizza le parole "errore", "somma" o "permutata" sarebbe meno utile di una spiegazione più semplice che non ha comportato alcuna discussione su come funzionano le foreste casuali.

Come se volessi che qualcuno mi spiegasse come usare una radio, non mi aspetterei che la spiegazione coinvolgesse come una radio converte le onde radio in suono.

Come spiegheresti cosa significano i numeri nel WKRP 100.5 FM "senza entrare nei fastidiosi dettagli tecnici delle frequenze delle onde? Francamente i parametri e i correlati problemi di prestazioni con foreste casuali sono difficili da mettere in giro anche se si comprendono alcuni termini tecnici.

Ecco il mio colpo ad alcune risposte:

-Mean Raw Importante punteggio della variabile X per la classe 0

-Mean Raw Importante punteggio della variabile X per la classe 1

Semplificazione dalla foresta casuale pagina web, il punteggio di importanza grezza misura quanto è più utile che casuale una particolare variabile predittore è nel classificare con successo i dati.

-MeandreaseAccuracy

Penso che questo sia solo in Modulo r, e credo che misura la quantità di inclusione di questo predittore nel modello riduce l'errore di classificazione.

-Meandreasegini

Gini è definito come "disuguaglianza" se usato nella descrizione della distribuzione del reddito da parte della società o una misura di "impurità del nodo" nella classificazione basata sugli alberi. Una bassa Gini (cioè una maggiore descrizione di Gini) significa che una particolare variabile predittore svolge un ruolo maggiore nel partizionamento dei dati nelle classi definite. È difficile da descrivere senza parlare del fatto che i dati negli alberi di classificazione sono divisi su singoli nodi in base ai valori dei predittori. Non sono così chiaro su come questo si traduce in prestazioni migliori.

Altri suggerimenti

Per la tua preoccupazione immediata: valori più alti significano che le variabili sono più importanti. Questo dovrebbe essere vero per tutte le misure che menzioni.

Le foreste casuali ti danno modelli piuttosto complessi, quindi può essere difficile interpretare le misure di importanza. Se vuoi capire facilmente cosa stanno facendo le tue variabili, non usare RFS. Utilizzare modelli lineari o un albero decisionale (non ensemble).

Tu hai detto:

Una spiegazione che utilizza le parole "errore", "somma" o "permutata" sarebbe meno utile di una spiegazione più semplice che non ha comportato alcuna discussione su come funzionano le foreste casuali.

Sarà terribilmente difficile spiegare molto di più di quanto sopra a meno che tu non scavi e impari cosa dire delle foreste casuali. Presumo che ti stia lamentando del manuale o della sezione del manuale di Breiman:

http://www.stat.berkeley.edu/~breiman/randomforests/cc_home.htm#varimp

Per capire quanto sia importante una variabile, la riempiono di spazzatura casuale ("permute"), quindi vedere quanta precisione predittiva diminuisce. Meandecreaseaccuracy e meandecreasini funzionano in questo modo. Non sono sicuro di quali siano i punteggi di importanza grezza.

L'interpretazione è un po 'dura con le foreste casuali. Mentre RF è un classificatore estremamente robusto, fa le sue previsioni democraticamente. Con questo intendo che costruisci centinaia o migliaia di alberi prendendo un sottoinsieme casuale delle tue variabili e un sottoinsieme casuale dei tuoi dati e costruisci un albero. Quindi fare una previsione per tutti i dati non selezionati e salvare la previsione. È robusto perché si occupa bene dei capricci del tuo set di dati, (cioè si è liscia su valori casualmente alti/bassi, grafici/campioni fortuiti, misurando la stessa cosa 4 modi diversi, ecc.). Tuttavia, se hai alcune variabili altamente correlate, entrambe possono sembrare importanti in quanto non sono sempre inclusi in ciascun modello.

Un potenziale approccio con foreste casuali potrebbe essere quello di aiutare a ridurre i predittori, quindi passare al carrello normale o provare il pacchetto del partito per i modelli di alberi a base di inferenza. Tuttavia, è necessario diffidare dei problemi di data mining e fare inferenze sui parametri.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top