Domanda

Ho letto diversi articoli e articoli relativi a Analisi delle Componenti Principali (PCA) e in alcuni di essi, c'è un passo che è abbastanza chiaro per me (in particolare (3) in [ Schölkopf 1996 ]).

Fammi riporto il loro ragionamento seguito.


considerare i dati centrati impostare $ D = \ {\ textbf {x} _k \} _ {k = 1} ^ M $ con $ \ textbf {x} _k \ in \ textbf {R} ^ N $ e $ \ sum_ {k = 1} ^ M \ textbf {x} _k = 0 $. PCA diagonalizes il (campione) la matrice di covarianza

$$ C = \ frac {1} {M} \ sum_ {j = 1} ^ M \ textbf {x} _j \ textbf {x} _j ^ T. \ Tag {1} $$

Per fare questo abbiamo trovato la soluzione al autovettore equazione

$$ \ Lambda \ textbf {} v = C \ textbf {v} \ tag {2} $$

per autovalori $ \ lambda \ geq 0 $ e autovettori $ \ textbf {v} \ in \ textbf {R} ^ N \ backslash \ {{0} \} $. Come

$$ \ Lambda \ textbf {v} = C \ textbf {v} = \ frac {1} {M} \ sum_ {j = 1} ^ M (\ textbf {x} _j ^ T \ textbf {v}) \ textbf { x} _J, \ tag {3} $$

tutte le soluzioni di $ \ textbf {v} $ con $ \ lambda \ neq 0 $ deve trovarsi nel giro di $ \ textbf {x} _1, \ dots, \ textbf {x} _M $, quindi (2) è equivalente a

$$ \ Lambda (\ textbf {x} _k ^ T \ textbf {v}) = \ textbf {x} _k TC \, qquad text {for} k = 1, \ dots, M \ tag ^ textbf {v} \ \ { 4} $$


(4), non fa $ \ lambda (\ textbf {x} ^ T \ textbf {v}) = \ textbf {x} ^ TC \ textbf {v} $ attesa per $ \ textbf {} qualsiasi $ valore di $ \ textbf {x} $? Perché (4) Tenere solo quando $ \ textbf {x} \ in D $? Non capisco come la loro fine con (4).

Grazie.

È stato utile?

Soluzione

Il comunicato dice che (2) e (4) sono uguali. Ciò significa che (2) $ \ Rightarrow $ (4) e (4) $ \ Rightarrow $ (2). La prima implicazione è banale, come lei ha giustamente. $$ \ lambda v = Cv $$ implica $$ \ lambda x ^ Tv = x ^ TCV $$ per tutti $ v $, non solo quelli da $ D $. Ma la seconda implicazione è un po 'più complicato, ma questo è ciò che la prova è di circa. Ti dice che, se si desidera controllare, se un vettore è un autovettore di $ C $, non c'è bisogno di controllare se (2) è soddisfatta. Ti dice, che quando (4) è soddisfatta, (2) è soddisfa pure.

Immaginate di avere 2 punti nello spazio 3D. Quei 2 punti sono $$ x_1 = (- 1, -1,0) $$ $$ x_2 = (1,1,0) $$ (Mi scusi per non fare questo "set di dati" centrato) Si noti che entrambi i punti si trovano nel piano $ $ xy. Ora la matrice di correlazione è $$ C = \ begin {} bmatrix 1/2 e -1/2 & 0 \\ [0.3em] -1/2 e 1/2 e 0 \\ [0.3em] 0 & 0 & 0 \ End {} bmatrix $$ Ora vuoi sapere, se la $ v = [1 \ -1 \ 0] ^ T $ è un autovettore con autovalore 1. La dichiarazione si dice, che è possibile solo controllare, se (2) è soddisfatta (3 equazioni) o se $$ \ frac {1} {2} x_1 ^ Tv = x_1 ^ TCV = 0 $$ e $$ \ frac {1} {2} x_2 ^ Tv = x_2 ^ TCV = 0 $$ che sono solo due equazioni.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
scroll top