Domanda

sto facendo un esperimento su Azure ML. Mentre pre trattamento dei miei dati, v'è la possibilità di mancare pulire i dati utilizzando PCA o topi.

Si prega di fornire me un esempio di come posso decidere su quale opzione scegliere.

È stato utile?

Soluzione

Non so in merito a Azure ML. Ma:

analisi delle componenti principali . Ci vuole un set di dati e "ruota", prendendolo assi originali definiti dalle variabili originali, e la creazione di nuovi assi che sono combinazioni lineari dei vecchi dati. Le combinazioni lineari precisi sono scelti in modo tale che ciascun componente successivo massimizza varianza lungo che le nuove dimensioni. Una veloce ricerca su Google si trasforma fino sacco di tutorial.

Questo vuole essere un stato tagliato di conferenza Hastie & Tibshirani del PCA https://www.youtube.com/watch?v=ipyxSYXgzjQ

MICE è "imputaiton multipla da equazioni concatenate". Fondamentalmente, i dati mancanti è predetto da dati osservati, utilizzando un algoritmo sequenziale che viene lasciata procedere alla convergenza. (1) Start compilando i dati mancanti con ipotesi plausibili quali potrebbero essere i valori. (2) per ogni variabile, prevedere i valori mancanti modellando i valori osservati in funzione delle altre variabili. Ad ogni passo, aggiornare le previsioni dei valori mancanti. Ci sono molti dettagli complicati, e molti tutorial online. ecco un articolo destinato agli operatori BiOSTAT:

https://www.ncbi.nlm.nih.gov/ PMC / articoli / PMC3074241 /

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top