Comment est PCA est différent du regroupement subspatiale et comment pouvons-nous extraire les variables responsables de la première composante de PCA?

https://datascience.stackexchange.com/questions/18067

22-10-2019
|

Question

Nouvelle mise à jour:

Je comprends les composants APC assurer que nous sélectionnons les variables responsables de la variance élevée, mais je voudrais savoir comment extraire les variables clés ne sont responsables qu'envers la variance élevée grâce à des composants PCA.

Idéalement, un exemple simple serait utile.

Ceci est mon code:

#Implementing PCA for visualizing after Kmeans clustering

`# Interpret 3 cluster solution
model3=KMeans(n_clusters=3)
model3.fit(clus_train)
clusassign=model3.predict(clus_train)
# plot clusters

« » 'Les nouvelles variables, appelées variables canoniques, sont classés par ordre de la proportion de la variance et les variables clustering qui est représenté par chacune des variables canoniques. Ainsi, la première la variable canonique comptera pour la plus grande proportion de la variance. La deuxième variable canonique représentera la prochaine la plus grande proportion de la variance, et ainsi de suite. En général, la majorité des la variance des variables de regroupement sera prise en compte par la deux premières variables canoniques et ce sont les variables nous pouvons tracer. '' '

from sklearn.decomposition import PCA
pca_2 = PCA(2) # Selecting 2 components
plot_columns = pca_2.fit_transform(clus_train)
plt.scatter(x=plot_columns[:,0], y=plot_columns[:,1], c=model3.labels_,)

observations sont plus étalée indiquant moins corrélation entre la observations et plus dans la variance des grappes.

plt.xlabel('Canonical variable 1')
plt.ylabel('Canonical variable 2')
plt.title('Scatterplot of Canonical Variables for 3 Clusters')
plt.show()`

La solution

La réduction de la dimensionnalité d'un ensemble de données avec l'APC ne bénéficie pas seulement les humains essayant de regarder les données dans un certain nombre de dimensions saisissable. Il est également utile pour les algorithmes d'apprentissage machine à former sur un sous-ensemble de dimensions. Les deux pour réduire la complexité des données et le coût de calcul de la formation comme modèle d'apprentissage de la machine.

Autres conseils

PCA est une technique très courante, vous voudrez peut-être autour de google. PCA est terriblement commun pour la visualisation de données, mais il a beaucoup d'autres utilisations.

Par exemple, si vous voulez ajuster une régression linéaire sur le revenu moyen. Maintenant, vous avez recueilli plus de 500 facteurs prédictifs, mais beaucoup d'entre eux sont corrélés comme:

Combien la personne paie de l'impôt l'année dernière
Dans quelle mesure la personne paie l'impôt de l'année précédente
Combien la personne paie l'impôt il y a trois ans
....

Ces prédicteurs sont fortement corrélés et peut présenter des problèmes de modélisation dans votre modèle linéaire. Une technique très courante consiste à utiliser PCA pour réduire en un ensemble de composantes principales orthogonales réduites. Vous pouvez ensuite utiliser ces composants pour la construction de votre modèle.

https://stats.stackexchange.com / questions / 22665 / how-to-use-composantes principales, comme prédicteurs-en-GLM

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange