statistiques ou statistiques fiables pour identifier des valeurs aberrantes multivariées
Question
Pour les ensembles de données variate simples, nous pouvons utiliser des méthodes simples, comme boîte à moustaches ou [5%, 95%] quantile pour identifier les valeurs aberrantes. Pour les ensembles de données à plusieurs variables, il existe des statistiques qui peuvent être utilisées pour identifier les valeurs aberrantes?
La solution
multivariée aberrante détection peut être assez difficile et même 2D données peuvent être difficiles à déchiffrer visuellement parfois. Vous êtes sur place à la recherche de traitements statistiques robustes analogues à 95% quantiles.
Lorsque, normalement données distribuées naturellement aligné avec la distribution chi carré, l'étalon-or pour les statistiques robustes en n dimensions serait d'utiliser Mahalanobis distances
puis éliminer les données au-delà de 95% ou 99% quantiles dans l'espace Mahalanobis.
Plug et les capacités de jeu sont disponibles dans scikit-learn et R .
Voici un excellent traitement théorique et pratique de la méthodologie :
Et voici un grand point de vue de l'image avec certains heuristiques .
En outre, il est un traitement très sophistiqué appelé PCOUT
pour la détection des valeurs aberrantes qui se fondent plutôt sur la décomposition composante principale. Il y a un correspondant package R , mais le traitement théorique est derrière un paywall:
Hope this helps!