Question

Je suis en train de faire une expérience sur Azure ML. Alors que le traitement de mes données avant, il y a une option pour les données manquantes propres utilisant PCA ou MICE.

S'il vous plaît me donner un exemple de la façon dont je peux décider quelle option choisir.

Était-ce utile?

La solution

Je ne sais pas Azure ML. Mais:

analyse en composantes principales . Il faut un ensemble de données et « tourne », en recevoir les axes originaux définis par les variables d'origine, et la création de nouveaux axes qui sont des combinaisons linéaires des anciennes données. Les combinaisons linéaires précises sont choisies de telle sorte que chaque composant successif maximise la variance le long de ce que les nouvelles dimensions. Une recherche rapide Google se présente beaucoup de tutoriels.

Voici une Snipped de la conférence de Hastie et Tibshirani sur PCA https://www.youtube.com/watch?v=ipyxSYXgzjQ

MICE est "multiple imputaiton par des équations enchaînées". Fondamentalement, les données manquantes est prédite par les données observées, en utilisant un algorithme séquentiel qui est autorisé à procéder à la convergence. (1) Commencez par remplir les données manquantes avec des suppositions plausibles à ce que les valeurs pourraient être. (2) pour chaque variable, prédire les valeurs manquantes par la modélisation des valeurs observées en fonction des autres variables. A chaque étape, mettre à jour les prévisions des valeurs manquantes. Il y a beaucoup de détails délicats, et de nombreux tutoriels en ligne. voici un article destiné aux praticiens biostat:

https://www.ncbi.nlm.nih.gov/ CGP / articles / PMC3074241 /

Licencié sous: CC-BY-SA avec attribution
scroll top