statistiques ou statistiques fiables pour identifier des valeurs aberrantes multivariées

https://datascience.stackexchange.com/questions/13018

16-10-2019
|

Question

Pour les ensembles de données variate simples, nous pouvons utiliser des méthodes simples, comme boîte à moustaches ou [5%, 95%] quantile pour identifier les valeurs aberrantes. Pour les ensembles de données à plusieurs variables, il existe des statistiques qui peuvent être utilisées pour identifier les valeurs aberrantes?

La solution

multivariée aberrante détection peut être assez difficile et même 2D données peuvent être difficiles à déchiffrer visuellement parfois. Vous êtes sur place à la recherche de traitements statistiques robustes analogues à 95% quantiles.

Lorsque, normalement données distribuées naturellement aligné avec la distribution chi carré, l'étalon-or pour les statistiques robustes en n dimensions serait d'utiliser Mahalanobis distances puis éliminer les données au-delà de 95% ou 99% quantiles dans l'espace Mahalanobis.

Plug et les capacités de jeu sont disponibles dans scikit-learn et R .

Voici un excellent traitement théorique et pratique de la méthodologie :

Et voici un grand point de vue de l'image avec certains heuristiques .

En outre, il est un traitement très sophistiqué appelé PCOUT pour la détection des valeurs aberrantes qui se fondent plutôt sur la décomposition composante principale. Il y a un correspondant package R , mais le traitement théorique est derrière un paywall:

P. Filzmoser, R. Maronna, M. Werner. identification des valeurs aberrantes dans les dimensions élevées, les statistiques de calcul et analyse des données, 52, 1694-1711, 2008

Hope this helps!

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange