Question

Pour les ensembles de données variate simples, nous pouvons utiliser des méthodes simples, comme boîte à moustaches ou [5%, 95%] quantile pour identifier les valeurs aberrantes. Pour les ensembles de données à plusieurs variables, il existe des statistiques qui peuvent être utilisées pour identifier les valeurs aberrantes?

Était-ce utile?

La solution

multivariée aberrante détection peut être assez difficile et même 2D données peuvent être difficiles à déchiffrer visuellement parfois. Vous êtes sur place à la recherche de traitements statistiques robustes analogues à 95% quantiles.

Lorsque, normalement données distribuées naturellement aligné avec la distribution chi carré, l'étalon-or pour les statistiques robustes en n dimensions serait d'utiliser Mahalanobis distances puis éliminer les données au-delà de 95% ou 99% quantiles dans l'espace Mahalanobis.

Plug et les capacités de jeu sont disponibles dans scikit-learn et R .

Voici un excellent traitement théorique et pratique de la méthodologie :

Et voici un grand point de vue de l'image avec certains heuristiques .

En outre, il est un traitement très sophistiqué appelé PCOUT pour la détection des valeurs aberrantes qui se fondent plutôt sur la décomposition composante principale. Il y a un correspondant package R , mais le traitement théorique est derrière un paywall:

P. Filzmoser, R. Maronna, M. Werner. identification des valeurs aberrantes dans les dimensions élevées, les statistiques de calcul et analyse des données, 52, 1694-1711, 2008

Hope this helps!

Licencié sous: CC-BY-SA avec attribution
scroll top