从一组数据中排除异常值的有效且准确的算法是什么？

https://stackoverflow.com/questions/2069793

20-09-2019
|

题

我有 200 个数据行（意味着一小组数据）。我想进行一些统计分析，但在此之前我想排除异常值。

为此目的有哪些潜在的算法？准确性是一个值得关注的问题。

我对统计非常陌生，因此需要非常基本的算法方面的帮助。

解决方案

开始通过绘制杠杆，然后去一些好醇'两眼创伤（又名看散点图）。

统计软件包的地段有离群/残留的诊断，但我更喜欢库克D.你可以手工计算的话，如果你想使用的从mtsu.edu 该式（原始链路是死的，这是从档案源.org等），

其他提示

总的来说，让这样的问题变得困难的是，对于异常值没有严格的定义。实际上，我建议不要使用一定数量的标准差作为截止值，原因如下：

一些异常值可能有 巨大的 影响您对标准差的估计，因为标准差不是可靠的统计数据。
标准差的解释很大程度上取决于数据的分布。如果您的数据呈正态分布，则 3 个标准差就很多，但如果数据呈对数正态分布，则 3 个标准差就不算很多。

有一些好的方法可以继续：

保留所有数据，并仅使用稳健的统计数据（中位数而不是均值，Wilcoxon 检验而不是 T 检验等）。如果您的数据集很大，可能会很好。
修剪或缩尾您的数据。修剪是指去除顶部和底部x%。缩尾意味着将顶部和底部 x% 分别设置为第 x 和第 1-x 百分位值。
如果您有一个小数据集，您可以只绘制数据并手动检查是否存在不可信的值。
如果您的数据看起来相当接近正态分布（没有重尾且大致对称），则使用中位绝对偏差而不是标准差作为检验统计量，并过滤到远离中位数的 3 或 4 个中值绝对偏差。

您可能听说过表达“六西格玛”。

此是指围绕平均值正负3西格玛（即，标准偏差）。

'六个西格玛' 范围以外的任何可能的处理为异常值。

在反射，我想“六西格玛”太宽。

本文介绍如何相当于“每百万3.4缺陷零件的机会。”

这似乎是用于认证目的相当严格的要求。只有当它适合你，你可以决定的。

根据您的数据及其含义，你可能想看看 RANSAC （随机取样一致）。这被广泛应用于计算机视觉，并试图用大量的异常值的模型拟合数据时，一般给出了优异的成绩。

，这是非常简单的概念化和解释。在另一方面，它的非确定性的，这可能导致根据应用的问题。

计算机上的标准偏差，和所述第一，第二或第三标准偏差以外排除一切。

下面是我怎么会去了解它在SQL Server

查询下面将保持从一个虚构的尺度表中获取的平均重量的单个称重每个人而不允许那些谁是过于胖瘦甩开更现实的平均值：

  select w.Gender, Avg(w.Weight) as AvgWeight
    from ScaleData w
    join ( select d.Gender, Avg(d.Weight) as AvgWeight, 
                  2*STDDEVP(d.Weight) StdDeviation
             from ScaleData d
            group by d.Gender
         ) d
      on w.Gender = d.Gender
     and w.Weight between d.AvgWeight-d.StdDeviation 
                      and d.AvgWeight+d.StdDeviation
   group by w.Gender

有可能是一个更好的方式去了解这一点，但它的工作原理和行之有效的。如果您所遇到的另一种更有效的解决方案，我喜欢听到它。

注：上述去除异常值的顶部和底部5％出来的画面进行平均的目的的。可以调整通过在2调整2 *去除异常值的数目* STDDEVP按： HTTP：/ /en.wikipedia.org/wiki/Standard_deviation

如果您只想分析一下，说你要计算与另一个变量，其确定排除异常的相关性。但是，如果你要建模/预测，它并不总是最好的，以通俗易懂排除它们。

尝试使用方法，如上限或如果怀疑异常值包含的信息/模式，则缺少替换它，和模型/预测它来治疗它。我写的，你可以如何去这个这里，使用R一些例子

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow