La creazione di combinazioni obbligatorie di variabili per il disegno di foresta casuale

https://datascience.stackexchange.com/questions/1094

16-10-2019
|

Domanda

problema

Per il mio compito di apprendimento macchina, ho creare un insieme di predittori. Predittori sono disponibili in "fasci" - misure multidimensionali (3 o 4 - dimensionale nel mio caso).

Il foro "pacchetto" ha senso solo se è stato misurato, e presi insieme.

Il problema è, diverse 'fasci' di predittori può essere misurato solo per piccola parte del campione, e quelle parti non lo fanno necessaria intersecano per diversi 'pacchetti'.

Per quanto le parti sono piccole, imputando porta ad una notevole diminuzione di precisione (catastrophical per essere più precisi)

possibili soluzioni

ho potuto creare variabili dummy che segneranno se la misurazione è avvenuta per ogni variabile. Il problema è che, quando le foreste casuali pareggi variabili casuali, lo fa individualmente.

Quindi ci sono due modi per risolvere questo problema: 1) Combinare ogni "pacco" in un predittore. Questo è possibile, ma sembra informazioni andranno perse. 2) Fare variabili disegnare forestali casuale non singolarmente, ma da "fasci" obbligatoria.

Problema di foresta casuale

Come foresta casuale disegna variabili a caso, prende caratteristiche che sono inutili (o molto meno utile) senza altri dal loro "pacchetto". Ho la sensazione che conduce ad una perdita di precisione.

Esempio

Per esempio io ho variabili a, a_measure, b, b_measure. Il problema è, variabili a_measure hanno senso solo se a variabile è presente, uguale per b. Così ho sia necessario combinare a a_measureand in una variabile, o fare foresta casuale disegnare sia, nel caso in cui almeno è tratto uno di loro.

Domanda

Quali sono le migliori soluzioni pratiche per problemi quando diversi gruppi di predittori sono misurati per piccole parti di popolazione complessiva, e questi insiemi di predittori sono disponibili in "bundle" obbligatorie?

Grazie!

Soluzione

Si può prendere in considerazione gradiente potenziato alberi piuttosto che foreste casuali. Sono anche un metodo basato su alberi insieme, ma poiché questo metodo non dimensioni del campione, non verrà eseguito per il problema di non avere un utile predittore disponibile per dividere in qualsiasi momento particolare.

diverse implementazioni di GBDT hanno modi diversi di gestione dei valori mancanti, che farà una grande differenza nel tuo caso; Credo R fa spaccature ternari, che è in grado di lavorare bene.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange