Fare Foresta a caso sovradattamento?

https://datascience.stackexchange.com/questions/1028

16-10-2019
|

Domanda

Ho letto in giro su foreste casuali, ma non riesco davvero a trovare una risposta definitiva sul problema della sovradattamento. Secondo il documento originale di Breiman, non dovrebbero OVERFIT quando si aumenta il numero di alberi nella foresta, ma sembra che non c'è consenso su questo. Questo mi sta creando un po 'di confusione in merito alla questione.

Forse qualcuno più esperto di me mi può dare una risposta più concreta o indicarlo nel giusto senso per capire meglio il problema.

Soluzione

Ogni algoritmo ML con elevata complessità può OVERFIT. Tuttavia, l'OP chiede se un RF non sovradattamento sarà quando si aumenta il numero di alberi nella foresta.

, metodi di ensemble generali riduce la varianza previsione a quasi nulla, migliorando la precisione dell'insieme. Se definiamo la varianza dell'errore generalizzazione atteso di un singolo modello randomizzato come:

Dalla qui , la varianza dell'errore generalizzazione atteso di un corrisponde Ensemble:

dove p(x) è il coefficiente di correlazione di Pearson tra le previsioni dei due modelli randomizzati addestrati sugli stessi dati provenienti da due semi indipendenti. Se aumentiamo il numero di DT nel RF, M più grande, la varianza del complesso diminuisce quando ρ(x)<1. Pertanto, la varianza di un insieme è strettamente minore della varianza di un singolo modello.

In poche parole, aumentando il numero di singoli modelli randomizzati in un insieme non potrà mai aumentare l'errore di generalizzazione.

Altri suggerimenti

Si consiglia di controllare cross-validato - un sito web stachexchange per molte cose, tra cui l'apprendimento automatico.

In particolare, questa domanda (con esattamente lo stesso titolo) è già stato risposto più volte. Controllare questi link: https://stats.stackexchange.com/search?q=random+forest+overfit

Ma io vi dia la risposta breve ad esso: sì, lo fa sovradattamento, e qualche volta è necessario controllare la complessità degli alberi nella foresta, o anche potare quando crescono troppo - ma questo dipende la biblioteca si utilizza per costruire la foresta. Per esempio. in randomForest in R si può controllare solo la complessità

La Foresta a caso fa sovradattamento.
La Foresta a caso non aumenta l'errore di generalizzazione quando più alberi vengono aggiunti al modello. La varianza generalizzazione sta a zero con più alberi utilizzati.

Ho fatto un esperimento molto semplice. Ho generato i dati sintetici:

y = 10 * x + noise

I due modelli foresta casuale treno'VE:

uno con alberi pieni
uno con alberi potati

Il modello con alberi pieni ha una minore errore di treno, ma l'errore di prova superiore rispetto al modello con alberi potati. Le risposte di entrambi i modelli:

E 'una chiara evidenza di overfitting. Poi ho preso l'iper-parametri del modello overfitted e controllare l'errore, mentre l'aggiunta ad ogni passo 1 albero. Ho ottenuto il seguente grafico:

Come si può vedere l'errore sovradattamento non cambia quando si aggiungono altri alberi, ma il modello è overfitted. Ecco l' link per l'esperimento che ho fatto.

STRUTTURATO DATASET - ERRORI> OOB INGANNEVOLE

ho trovato interessante caso di RF sovradattamento nella mia pratica di lavoro. Quando i dati sono strutturati overfits RF su osservazioni OOB.

Particolare:

Io cerco di prevedere i prezzi dell'energia elettrica sul mercato spot dell'energia elettrica per ogni singola ora (ogni fila di set di dati contiene i parametri di sistema (carico, capacità, ecc) dei prezzi e per quella sola ora).
I prezzi dell'energia elettrica sono creati in batch (24 prezzi creati sul mercato dell'energia elettrica in un fissaggio in un momento di tempo).
Così OB OOB per ogni albero sono sottoinsiemi casuale di set di ore, ma se si prevedono prossime 24 ore si fanno tutti in una volta (nel primo momento si ottengono tutti i parametri di sistema, allora si prevedono 24 prezzi, poi c'è un fissaggio che produce tali prezzi), così è più facile fare previsioni OOB, poi per tutto il giorno successivo. obs OOB non sono contenuti in blocchi di 24 ore, ma dispersi uniformemente, in quanto v'è un'autocorrelazione di errori di predizione è più facile da prevedere prezzo per singola ora che manca poi per intero blocco di ore mancanti.

più facile da prevedere in caso di autocorrelazione errore:
noto, noto, la previsione, noto, la previsione - OBB caso
più dura:
nota, conosciuta, nota, la previsione, la previsione - vero e proprio caso di previsione mondo

Spero che interessa

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange