Come interpretare i valori di carico di un PCA?

https://datascience.stackexchange.com/questions/14300

16-10-2019
|

Domanda

Immaginate Sono la matrice seguente, che dà i voti degli studenti nelle materie tedesco, filosofia, matematica e fisica:

ger = c(2,4,1,3,2,4,4,1,2,3)
phi = c(3,4,1,2,2,3,3,2,2,2)
mat = c(1,3,2,4,1,2,2,4,3,1)
phy = c(2,2,2,5,2,2,3,4,3,3)
A = cbind(ger,phi,mat,phy)

I combinare tutto a una matrice e scalare i dati:

As = scale(A)

Ora, io eseguire un summary sulla PCA:

summary(princomp(As), loadings = TRUE)

che restituisce il seguente output:

Importance of components:
                       Comp.1    Comp.2     Comp.3     Comp.4
Standard deviation     1.3257523 1.1657791 0.59600603 0.35793402
Proportion of Variance 0.4882275 0.3775114 0.09867311 0.03558799
Cumulative Proportion  0.4882275 0.8657389 0.96441201 1.00000000

Loadings:
     Comp.1 Comp.2 Comp.3 Comp.4
ger  0.496 -0.502  0.519  0.482
phi  0.548 -0.443 -0.423 -0.570
mat  -0.430 -0.572 -0.546  0.435
phy  -0.518 -0.474  0.503 -0.503

Ho un paio di suggerimenti per il primo componente (sulla base dei carichi):

C'è una forte correlazione positiva tra il tedesco e la filosofia e c'è anche una forte correlazione positiva tra la matematica e la fisica.
Chi è buono in lingua (tedesco e la filosofia) è spesso peggiore in MINT (matematica e fisica) e viceversa.

E un'idea circa la seconda, che non riesco a interpretare:

Si tratta di una media ponderata su tutte e quattro le variabili.

Ma non ho idea di come interpretare il Comp. 2, Comp. 3 e Comp. 4 sulla base dei carichi. Soprattutto perché tutti i valori di Comp. 2 sono tutti negativi, o avere lo stesso orientamento. Può qualcuno aiutarlo? Grazie in anticipo!

Soluzione

Le colonne della vostra matrice loadings sono una base di autovettori ortonormali. Questo è un concetto importante da algebra lineare, e l'apprendimento vale la pena circa in dettaglio, se non hai familiarità. Ma per gli scopi di questa risposta può essere compreso come definire un sistema di coordinate.

Per ogni studente, si può definire un punto in uno spazio a quattro dimensioni (in particolare, nel $ \ mathbb {R} ^ 4 $), che rappresenta i loro voti (dopo il centraggio e la normalizzazione). O, per dirla in altro modo, si può immaginare l'insieme di tutti i gradi degli studenti come un grafico a dispersione in quattro dimensioni, con quattro assi perpendicolari. Possiamo orientare questi assi in varie direzioni (come possiamo in due o tre dimensioni). La scelta più ovvia è quella di avere un asse per ogni soggetto, così l'asse che è collineare con la punta versore dall'origine al punto $ (1,0,0,0) $ rappresenta il grado in tedesco, e allo stesso modo la asse che è collineare con il vettore $ (0,1,0,0) $ rappresenta il loro grado in filosofia, l'asse che è collineare con il vettore $ (0,0,1,0) $ rappresenta il loro voto in matematica, e l'asse che è collineare con il vettore $ (0,0,0,1) $ rappresenta il loro grado in Fisica.

Tuttavia, non c'è ragione di aspettarsi che la direzione in cui il nostro grafico a dispersione è più disteso (nella direzione di maggiore variabilità nei dati) si allinea con uno di questi assi. PCA individua una nuova serie di assi in modo che uno allinea asse con la direzione di massima varianza, e un altro si allinea con la direzione della massima varianza rimanente dopo la prima direzione è proiettata fuori, e così via. Versori (espressi nel sistema di coordinate originale) che punto lungo questi nuovi assi sono le colonne nella matrice loadings.

Nel caso di questo particolare esempio, il vettore di carico per il primo componente principale è lungo un asse sostanzialmente esprime se sono meglio a matematica e fisica, o meglio a tedesco e filosofia. Il vettore di carico per il secondo componente principale è lungo un asse sostanzialmente esprime come buono o studente cattivo sono fuori tutto (quindi tutte le componenti del vettore hanno lo stesso segno e grandezza simile). È chiesti circa il segno negativo su tutti e quattro i componenti - se si ha familiarità con autovettori saprete che cambiare tutti i componenti del vettore da un segno complessivo è irrilevante. Fondamentalmente, è la stessa come solo scambio quale estremità dell'asse chiamiamo positivo e negativo che chiamiamo.

Quindi, in questo caso i primi due vettori di carico sono abbastanza vicino a quello che molti di noi si sarebbe aspettato di vedere. Ma anche in questo esempio abbastanza intuitivo, non si dovrebbe essere sorpresi che i vettori di carico per i componenti in seguito principali non sembrano così evidenti a voi. Questo perché questi stanno affrontando solo la varianza che resti dopo proiettiamo fuori la varianza di quella spiegata dai primi due fattori. Noi tutti probabilmente sappiamo che gli studenti che sono bravi a Fisica tendono ad essere bravo in matematica, ma quanti di noi sanno (per esempio) se, dopo il controllo per quanto sono bravi a Fisica, quelli che sono anche meglio a filosofia di tedesco sarà meglio a matematica? Questi effetti più sottili saranno meno evidenti ad un osservatore causale rispetto agli effetti dominanti.

Una volta arrivati ??al vettore di carico per il quarto componente principale (su quattro), davvero non c'è bisogno di meraviglia affatto di questo che ha il particolare valore che ha. In realtà, questo vettore è stato interamente determinata dalla precedente tre (fino al segno complessiva irrilevante). Questo può essere compreso ricordando che PCA selezionati quattro assi perpendicolari in uno spazio a quattro dimensioni - dopo i primi tre sono specificati, c'è solo una scelta possibile residuo che è perpendicolare a tutti

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange