Question

Pourquoi exactement caractéristiques dépendant les uns des autres, les caractéristiques ayant une forte corrélation entre eux, signifie qu'ils seraient redondants? En outre, ne PCA aider à se débarrasser des redondants / caractéristiques non pertinentes ou devons-nous pour se débarrasser des redondants / caractéristiques non pertinentes avant d'exécuter l'APC sur notre ensemble de données?

Était-ce utile?

La solution

Par souci de formation, les caractéristiques qui offre très peu de formation corrélées « valeur » que la présence / état d'une valeur peut toujours (ou presque) être utilisé pour déterminer la présence / l'état de l'autre. Si tel est le cas, il n'y a aucune raison d'ajouter les fonctionnalités comme ayant les deux auront peu d'impact sur les prévisions - si A « sur » = B « off » et A « off » = B « sur », tous les États peuvent être représenté par simple apprentissage de A ou B. Cela est très simplifié, mais la même chose est vraie pour d'autres valeurs fortement corrélées.

PCA peut aider à réduire les caractéristiques, mais en tout cas, si vous avez identifié ou redondants caractéristiques fortement corrélées qui sera de peu d'utilité dans la formation, il est probablement judicieux de les éliminer immédiatement et ensuite utiliser PCA, ou tout autre élément des mesures d'importance qui peuvent être générés par la formation de votre ensemble de données complet pour optimiser vos caractéristiques de formation set.

Autres conseils

redondant dispose peut être des caractéristiques qui sont multicolinear (à savoir très corrélative), mais plus important encore, ils sont à mesurer la même chose sans une contribution unique.

Par exemple, l'âge et le revenu pourrait être fortement corrélées, mais dans certaines analyses, ils ont encore un effet unique dans votre modèle et peut avoir des différences conceptuelles que vous voulez capturé pour l'interprétation. OTOH, l'âge et la date de naissance sont redondantes uniquement dans la plupart des cas d'utilisation, je peux penser (mais il y a toujours des exceptions, comme si la saison de naissance est importante).

Can PCA contribuent à réduire la redondance? Bien sûr. Il est l'un des au moins des dizaines de techniques que vous pouvez utiliser pour cela.

Une façon dont vous utilisez PCA pour la sélection de fonction est de regarder le chargement du facteur sur les principaux composants et déterminer quelles variables corrélées mesurent la même composante principale puis choisissez le top 1 ou quelques variables pour représenter cette variable latente, ce qui élimine fortement corrélée caractéristiques non distinctes.

Pourquoi devriez-vous éliminer les caractéristiques redondantes avant PCA? Si vous allez utiliser les composants principaux pour la prédiction plutôt que caractéristique d'élimination, alors oui.

Vous pouvez faire un tour de l'analyse des caractéristiques impliquant PCA ou d'autres techniques et d'un second tour pour créer des variables latentes pour votre modèle si vous voulez faire les deux.

Quelques outils supplémentaires pour la fonction sélection:

  • La redondance minimum Pertinence maximum
  • Corrélation Sélection des fonctions
  • Analyse Canonical Corrélations
  • Analyse du facteur
  • Utilisation d'une matrice de covariance
  • Valeur de décomposition Singular
  • Variation des facteurs d'inflation
Licencié sous: CC-BY-SA avec attribution
scroll top