Sélection des fonctionnalités et des caractéristiques PCA

https://datascience.stackexchange.com/questions/12250

16-10-2019
|

Question

J'ai un problème de classification. Je veux réduire le nombre de fonctionnalités à 4 (je 30). Je me demande pourquoi j'obtenir un meilleur résultat dans le classement lorsque j'utilise la sélection des fonctionnalités en fonction de corrélation (de pi³) d'abord, puis pca d'emploi par rapport à l'emploi juste pca (ce dernier est pire que le premier). Il convient de mentionner également que la perte de données dans la seconde approche (juste pca) de couverture de 0,2 variance: et dans le 0,8 à première est de 0,4 -variance coverd: 0,6

Merci d'avance

La solution

PCA trouve simplement des moyens plus compacts de représenter des données corrélées. PCA ne compacte pas explicitement les données afin de mieux expliquer la variable cible. Dans certains cas, la plupart de vos entrées pourraient être corrélées entre elles, mais peu pertinent à votre variable cible. C'est probablement ce qui se passe dans votre cas.

Prenons un exemple de jouet. Disons que je veux prédire le cours des actions. Dire que je me donne quatre facteurs prédictifs:

Année après année la croissance des bénéfices (pertinent)
pour cent de probabilité de pluie (non pertinente)
Humidité (non pertinent)
Température (non pertinente)

Si je demande PCA à cet ensemble de données, le premier composant principe se rapporte aux conditions météorologiques puisque 75% des prédicteurs sont liées aux conditions météorologiques. Est-ce composant principe pertinent? Ce n'est pas.

Les deux options que vous avez mis en surbrillance ébullition jusqu'à l'aide de SFC ou ne pas l'utiliser. L'option qui utilise CSA fait mieux, car explicitement sélectionne les variables qui ont une pertinence à la variable cible.

Autres conseils

Si vous avez un problème de classification, vous devriez vous LDA au lieu de PCA. PCA ne tient pas compte des classes, alors que LDA est conscient de la classe.

Par exemple, si vos données sont en 2D et que vous utilisez PCA dans l'exemple suivant, vous obtenez:

Alors avant PCA, les classes étaient parfaitement linéaire séparables, mais après PCA ils ne sont pas séparables du tout. Je ne dis pas que cela se produit dans votre cas, mais il pourrait être.

variables corrélées doit être retiré de PCA, comme les variables tendent ensemble à exagérer l'effet qu'ils expriment. SCF de sous-ensembles non corrélés de variables.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange