Question

Imaginez que j'ai la matrice suivante, ce qui donne les notes des élèves dans les matières allemand, philosophie, mathématiques et physique:

ger = c(2,4,1,3,2,4,4,1,2,3)
phi = c(3,4,1,2,2,3,3,2,2,2)
mat = c(1,3,2,4,1,2,2,4,3,1)
phy = c(2,2,2,5,2,2,3,4,3,3)
A = cbind(ger,phi,mat,phy)

Je combine tout à une matrice et à l'échelle des données:

As = scale(A)

Maintenant, j'effectue une summary sur l'APC:

summary(princomp(As), loadings = TRUE)

qui retourne la sortie suivante:

Importance of components:
                       Comp.1    Comp.2     Comp.3     Comp.4
Standard deviation     1.3257523 1.1657791 0.59600603 0.35793402
Proportion of Variance 0.4882275 0.3775114 0.09867311 0.03558799
Cumulative Proportion  0.4882275 0.8657389 0.96441201 1.00000000

Loadings:
     Comp.1 Comp.2 Comp.3 Comp.4
ger  0.496 -0.502  0.519  0.482
phi  0.548 -0.443 -0.423 -0.570
mat  -0.430 -0.572 -0.546  0.435
phy  -0.518 -0.474  0.503 -0.503

I ai quelques conseils pour le premier composant (basé sur les charges):

  • Il existe une forte corrélation positive entre l'allemand et la philosophie et il y a aussi une forte corrélation positive entre les mathématiques et la physique.
  • Qui est bon dans la langue (allemand et philosophie) est souvent pire dans MINT (mathématiques et physique) et l'inverse.

Et une idée sur la seconde, que je ne peux pas interpréter:

  • Il est une moyenne arithmétique pondérée sur les quatre variables.

Mais je ne sais pas comment interpréter le Comp. 2, Comp. 3 et Comp. 4 sur la base des charges. D'autant plus que toutes les valeurs de Comp. 2 sont tous négatifs, ou ont la même orientation. Est-ce que quelqu'un peut m'aider? Merci à l'avance!

Était-ce utile?

La solution

Les colonnes de votre matrice loadings sont une base de vecteurs propres orthonormés. Ceci est un concept important de l'algèbre linéaire, et l'apprentissage vaut bien au sujet en détail si vous n'êtes pas familier. Mais pour les besoins de cette réponse, il peut être comprise comme la définition d'un système de coordonnées.

Pour chaque élève, on peut définir un point dans un espace à quatre dimensions (en particulier, en $ \ mathbb {R} ^ 4 $), qui représente leurs notes (après le centrage et la normalisation). Ou pour le dire d'une autre façon, vous pouvez imaginer l'ensemble des notes de tous les élèves comme un nuage de points en quatre dimensions, avec quatre axes perpendiculaires. Nous pouvons orienter ces axes dans différentes directions (tout comme nous pouvons en deux ou trois dimensions). Le choix le plus évident est d'avoir un axe pour chaque sujet, de sorte que l'axe qui est colinéaire avec le pointage vecteur unitaire de l'origine au point $ (1,0,0,0) $ représente leur grade en allemand, et même la axe qui est colinéaire avec le $ vectoriel (0,1,0,0) $ représente leur grade en philosophie, l'axe qui est colinéaire avec le $ vectoriel (0,0,1,0) $ représente leur grade en mathématiques, et l'axe qui est colinéaire avec le vecteur $ (0,0,0,1) $ représente leur grade en physique.

Cependant, il n'y a aucune raison de penser que la direction dans laquelle notre scatterplot est le plus étendu (la direction de la variance plus grande dans les données) alignera avec l'un de ces axes. PCA choisit une nouvelle série d'axes de telle sorte que un axe aligné avec la direction de la plus grande variance, et l'autre est aligné avec la direction de la plus grande variance résiduelle après la première direction est projetée sur, et ainsi de suite. Les vecteurs unitaires (exprimés dans le système de coordonnées d'origine) qui pointent le long de ces nouveaux axes sont les colonnes de votre matrice loadings.

Dans le cas de cet exemple particulier, le vecteur de chargement pour la première composante principale est le long d'un axe qui exprime essentiellement qu'ils soient mieux en mathématiques et en physique, ou mieux à l'allemand et la philosophie. Le vecteur de chargement pour la deuxième composante principale est le long d'un axe qui exprime fondamentalement la façon dont bon ou mauvais étudiant, ils sont sur tous (donc toutes les composantes du vecteur ont le même signe et l'ampleur similaire). Vous interrogé sur le signe négatif sur les quatre composantes - si vous êtes familier avec vous saurez vecteurs propres que le changement de toutes les composantes du vecteur par un signe global est hors de propos. En gros, il est le même que celui qui vient swapping extrémité de l'axe que nous appelons positif et que nous appelons négatif.

Donc, dans ce cas, les deux premiers vecteurs de chargement sont assez proches de ce que beaucoup d'entre nous aurait pu attendre de voir. Mais même dans cet exemple assez intuitive, vous ne devriez pas être surpris que les vecteurs de chargement pour les composants principaux plus tard ne semblent pas aussi évident pour vous. En effet, ceux-ci ne sont que la variance traitent reste après que nous projetons la variance qui est expliqué par les deux premiers facteurs. Nous savons tous sans doute que les étudiants qui sont bons en physique ont tendance à être bon en maths, mais combien d'entre nous savons (par exemple) si, après le contrôle de la façon dont ils sont bons en physique, ceux qui sont aussi mieux à la philosophie que l'allemand sera mieux en maths? Ces effets plus subtils seront moins évident pour un observateur de cause à effet que les effets dominants.

Une fois que vous obtenez au vecteur de chargement pour la quatrième composante principale (sur quatre), vous ne avez pas vraiment besoin de se demander du tout pourquoi il a la valeur particulière qu'elle a. En fait, ce vecteur a été entièrement déterminé par les trois précédents (jusqu'à le signe général hors de propos). Cela peut se comprendre en se souvenant que l'APC a pris quatre axes perpendiculaires dans un espace à quatre dimensions - une fois que les trois premiers sont spécifiés, il n'y a qu'un seul choix reste possible qui est perpendiculaire à tous

.
Licencié sous: CC-BY-SA avec attribution
scroll top