Domanda

Perché fa esattamente funzionalità essendo dipendenti l'una dall'altra, caratteristiche ad elevata correlazione tra loro, medio che sarebbero ridondanti? Inoltre, non PCA aiutare sbarazzarsi di ridondanti / caratteristiche irrilevanti o dobbiamo per sbarazzarsi di ridondanti / caratteristiche irrilevanti prima di eseguire PCA sul nostro set di dati?

È stato utile?

Soluzione

Per motivi di formazione, caratteristiche che sono molto correlati offrono poco "valore" formazione come la presenza / stato di un valore può sempre (o quasi sempre) essere utilizzato per determinare la presenza / stato dell'altro. Se questo è il caso non c'è motivo di aggiungere entrambe le caratteristiche come avere entrambi avranno un impatto sulle previsioni - se A "a" = B "off", e un "off" = B "on", quindi tutti gli stati possono essere rappresentata dal solo imparare off a o B. Questo è notevolmente semplificata, ma lo stesso vale per altri valori altamente correlati.

PCA può aiutare a ridurre le caratteristiche, ma in ogni caso, se hai identificato ridondanti o caratteristiche altamente correlate che sarà di scarsa utilità nel campo della formazione, probabilmente ha senso per eliminarli subito e quindi utilizzare PCA, o altre funzionalità metriche importanza che possono essere generati da una formazione il vostro completo set di dati, per ottimizzare ulteriormente il vostro set di funzioni di formazione.

Altri suggerimenti

ridondante dispone di possono essere le caratteristiche che sono multicolinear (cioè altamente correlato), ma ancora più importante che stanno misurando la stessa cosa, senza un contributo unico.

Per esempio, età e reddito potrebbe essere altamente correlati, ma in alcune analisi hanno ancora un effetto unico nel modello e può avere differenze concettuali che si desidera catturare per l'interpretazione. OTOH, l'età e la data di nascita sono puramente ridondanti nella maggior parte dei casi d'uso mi viene in mente (anche se ci sono sempre le eccezioni, come ad esempio se la stagione di nascita è importante).

Can PCA aiuto ridurre la ridondanza? Certo. E 'uno di almeno decine di tecniche è possibile utilizzare per questo.

Un modo di usare PCA per la selezione funzione è quello di guardare il carico fattore sui componenti principali e determinare quali correlati variabili misurano la stessa componente principale poi scegliere le migliori 1 o poche variabili per rappresentare quella variabile latente, eliminando altamente correlati caratteristiche non distinte.

In caso di eliminare le caratteristiche ridondanti prima PCA? Se avete intenzione di utilizzare i componenti principali per la previsione piuttosto che l'eliminazione funzione, allora sì.

Si può fare un giro di funzionalità di analisi che coinvolge PCA o di altre tecniche e un secondo turno per creare variabili latenti per il modello, se si vuole fare entrambe le cose.

Alcuni strumenti aggiuntivi per la selezione delle funzioni:

  • Minimo massima ridondanza Pertinenza
  • Selezione Correlazione Caratteristica
  • Analisi canoniche correlazioni
  • Analisi Factor
  • L'uso di una matrice di covarianza
  • Singular Value Decomposition
  • Variance fattori di inflazione
Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top