Domanda

Come utilizziamo un punteggio correlazione tra due variabili per l'analisi dei dati?

Ho una serie di 20 caratteristiche e necessità di prevedere funzione 21. Ora è necessario che la correlazione tra due funzioni dovrebbe essere vicino a 1? Se ho 2 caratteristiche con corr segnare vicino a -1, allora questo significa che essi sono in contraddizione e diminuendo in tal modo la precisione?

Quindi, come si usa un punteggio di concordanza di analisi?

È stato utile?

Soluzione

La correlazione dovrebbe essere il meno possibile tra le diverse caratteristiche, in quanto le caratteristiche correlate fanno sì che queste caratteristiche stanno dando fuori stesso tipo di informazioni / tendenza per il predittore di imparare. Quindi solo uno di loro è effettivamente utile per la previsione.

Come mantenere più il numero di caratteristiche uninformative (caratteristiche correlate) si tradurrebbe in accuratezza degradato se la dimensione del campione è simile a te Caratteristica dimensioni set. selezione delle funzioni con l'eliminazione funzione ricorsiva o PCA, ecc può aiutare a ridurre il set di funzionalità a dimensioni ottimali.

calcolare il punteggio di concordanza di analisi predittiva tra le caratteristiche e variabile di destinazione. Quando si utilizza la regressione lineare per modellare un insieme di dati, vediamo anzitutto se la trama tra diverse caratteristiche e valori di variabili bersaglio segue un rialzo (+ ve correlazione) o tendenza decrescente (correlazione -ve) e non casualmente sparsi. Se un tale rapporto esiste quindi un modello di regressione sui dati avrebbe funzionato bene.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top