Come è PCA è diverso da Subspazio clustering e come possiamo estrarre le variabili responsabili per il primo componente PCA?

datascience.stackexchange https://datascience.stackexchange.com/questions/18067

  •  22-10-2019
  •  | 
  •  

Domanda

Nuovo aggiornamento:

Capisco componenti PCA assicurano selezioniamo variabili responsabili per alta varianza, ma mi piacerebbe sapere come estrarre le variabili chiave responsabili solo per alta varianza attraverso i componenti PCA.

Idealmente, un semplice esempio sarebbe di aiuto.

Questo è il mio codice:

#Implementing PCA for visualizing after Kmeans clustering

`# Interpret 3 cluster solution
model3=KMeans(n_clusters=3)
model3.fit(clus_train)
clusassign=model3.predict(clus_train)
# plot clusters

'' 'Le nuove variabili, dette variabili canoniche, sono ordinati in termini della proporzione di varianza e le variabili di clustering che è rappresentata da ciascuna delle variabili canoniche. Quindi la prima variabile canonica conterà per la percentuale più elevata del varianza. La seconda variabile canonica rappresenterà per la prossima grande proporzione di varianza, e così via. Di solito, la maggior parte dei la varianza nelle variabili di raggruppamento saranno valutate con il primo paio di variabili canoniche e quelle sono le variabili che siamo in grado di tracciare. '' '

from sklearn.decomposition import PCA
pca_2 = PCA(2) # Selecting 2 components
plot_columns = pca_2.fit_transform(clus_train)
plt.scatter(x=plot_columns[:,0], y=plot_columns[:,1], c=model3.labels_,)

osservazioni sono più distribuite indica una minore correlazione fra la osservazioni e superiori all'interno varianza gruppo.

plt.xlabel('Canonical variable 1')
plt.ylabel('Canonical variable 2')
plt.title('Scatterplot of Canonical Variables for 3 Clusters')
plt.show()`
È stato utile?

Soluzione

La riduzione della dimensionalità di un insieme di dati con PCA non solo avvantaggia l'uomo cercando di guardare i dati in un certo numero di afferrabile dimensioni. E 'anche utile per gli algoritmi di apprendimento automatico da formare su un sottoinsieme di dimensioni. Sia per ridurre la complessità dei dati e il costo computazionale della formazione come modello di apprendimento della macchina.

Altri suggerimenti

PCA è una tecnica molto comune, per cui si potrebbe desiderare di google in giro. PCA è terribilmente comune per la visualizzazione dei dati, ma ha molti altri usi.

Per esempio, se si vuole adattare una regressione lineare sui reddito medio. Ora, avete raccolto oltre 500 predittori, ma molti di loro sono correlati come:

  • Quanto la persona paga l'imposta l'anno scorso
  • Quanto la persona paga l'imposta l'anno prima
  • Quanto la persona paga l'imposta tre anni fa
  • ....

Quei fattori predittivi sono altamente correlati e potrebbe porre problemi di modellazione nel modello lineare. Una tecnica molto comune consiste nell'utilizzare PCA per ridurre in una serie di ridotte componenti principali ortogonali. È quindi possibile utilizzare tali componenti per costruire il modello.

https://stats.stackexchange.com / domande / 22665 / how-to-use-principali componenti-as-predittori-in-GLM

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top