Pergunta

Estou implementando o PCA usando a decomposição autovalorizada para dados esparsos. Sei que o MATLAB implementou o PCA, mas me ajuda a entender todos os detalhes técnicos quando escrevo código. Eu tenho seguido a orientação de aqui, mas estou obtendo resultados diferentes em comparação com a função interna Princomp.

Alguém poderia olhar para ele e me apontar na direção certa.

Aqui está o código:

function [mu, Ev, Val ] = pca(data)

% mu - mean image
% Ev - matrix whose columns are the eigenvectors corresponding to the eigen
% values Val 
% Val - eigenvalues

if nargin ~= 1
 error ('usage: [mu,E,Values] = pca_q1(data)');
end

mu = mean(data)';

nimages = size(data,2);

for i = 1:nimages
 data(:,i) = data(:,i)-mu(i);
end

L = data'*data;
[Ev, Vals]  = eig(L);    
[Ev,Vals] = sort(Ev,Vals);

% computing eigenvector of the real covariance matrix
Ev = data * Ev;

Val = diag(Vals);
Vals = Vals / (nimages - 1);

% normalize Ev to unit length
proper = 0;
for i = 1:nimages
 Ev(:,i) = Ev(:,1)/norm(Ev(:,i));
 if Vals(i) < 0.00001
  Ev(:,i) = zeros(size(Ev,1),1);
 else
  proper = proper+1;
 end;
end;

Ev = Ev(:,1:nimages);
Foi útil?

Solução

Veja como eu faria isso:

function [V newX D] = myPCA(X)
    X = bsxfun(@minus, X, mean(X,1));           %# zero-center
    C = (X'*X)./(size(X,1)-1);                  %'# cov(X)

    [V D] = eig(C);
    [D order] = sort(diag(D), 'descend');       %# sort cols high to low
    V = V(:,order);

    newX = X*V(:,1:end);
end

e um exemplo a ser comparado com a função princípio da caixa de ferramentas estatísticas:

load fisheriris

[V newX D] = myPCA(meas);
[PC newData Var] = princomp(meas);

Você também pode estar interessado neste post relacionado sobre o desempenho PCA por svd.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top