¿Cuáles son los algoritmos eficaces y precisos para excluir los valores extremos de un conjunto de datos?

https://stackoverflow.com/questions/2069793

20-09-2019
|

Pregunta

He conjunto de 200 filas de datos (implica un pequeño conjunto de datos). Quiero llevar a cabo un análisis estadístico, pero antes de que yo quiero excluir los valores extremos.

¿Cuáles son los algos potenciales para el propósito? La precisión es un motivo de preocupación.

Estoy muy nuevo en las estadísticas, por lo que necesitan ayuda para algos muy básicas.

Solución

Comenzar por el trazado de las href="http://en.wikipedia.org/wiki/Partial%5Fleverage" de los valores atípicos y luego ir por un buen ol "trauma interocular (aka mira el diagrama de dispersión).

Un montón de paquetes estadísticos tienen valores atípicos / diagnóstico residuales, pero yo prefiero de Cook D. Usted puede calcular a mano si desea utilizar esta fórmula de mtsu.edu (enlace original está muerto, esto es procedente de archivo .org).

Otros consejos

En general, lo que hace que una pregunta como ésta dura es que no existe una definición rigurosa de un valor atípico. De hecho, me recomendamos el uso de un cierto número de desviaciones estándar como punto de corte para las siguientes razones:

A los pocos valores atípicos puede tener un enorme impacto en su estimación de la desviación estándar, como la desviación estándar no es una estadística robusta.
La interpretación de la desviación estándar depende enormemente de la distribución de los datos. Si los datos se distribuyen normalmente después de 3 desviaciones estándar es mucho, pero si es, por ejemplo, una distribución logarítmica normal, luego 3 desviaciones estándar no es mucho.

Hay algunas buenas maneras de proceder:

Mantenga todos los datos, y sólo tiene que utilizar la estadística robusta (mediana en lugar de media, la prueba de Wilcoxon en lugar de T-test, etc.). Probablemente bueno si su conjunto de datos es grande.
Recorte o Winsorize sus datos. medios de extracción del x% superior e inferior de recorte. medios de ajuste del x% superior e inferior a la X y el valor percentil 1-x-ésimo, respectivamente Winsorizing.
Si usted tiene un pequeño conjunto de datos, usted podría trazar sus datos y examinar manualmente los valores inverosímiles.
Si los datos se ve razonablemente cerca de una distribución normal (no hay colas pesadas y más o menos simétrica), a continuación, utilizar el desviación absoluta mediana en lugar de la desviación estándar como su estadística de prueba y el filtro a 3 ó 4 desviaciones absolutas mediana de distancia de la mediana.

Es posible que haya escuchado la expresión 'seis sigma'.

Esto se refiere a más y menos 3 sigma (es decir, desviaciones estándar) alrededor de la media.

Cualquier cosa fuera del rango 'Six Sigma' podría ser tratados como un valor atípico.

En la reflexión, pienso 'Six Sigma' es demasiado amplia.

En este artículo se describe cómo equivale a "3,4 partes defectuosas por millón de oportunidades."

Parece que un requisito muy estricto para fines de certificación. Sólo tú puedes decidir si te conviene.

En función de los datos y su significado, es posible que desee ver en RANSAC (al azar consenso muestra). Esto es ampliamente utilizado en la visión por ordenador, y generalmente da excelentes resultados cuando se trata de ajustar los datos con una gran cantidad de valores atípicos a un modelo.

Y es muy simple de conceptualizar y explicar. Por otro lado, es no determinista, lo que puede causar problemas dependiendo de la aplicación.

Calcular la desviación estándar en el set, y excluir a todo lo exterior de la primera, segunda o tercera desviación estándar.

Aquí está cómo iba a ir sobre ella en SQL Server

La consulta siguiente obtendrá el peso medio de una tabla de escala de ficción que sostenía un solo pesaje para cada persona mientras no permitir aquellos que son demasiado gordos o delgados para deshacerse de la media más realista:

  select w.Gender, Avg(w.Weight) as AvgWeight
    from ScaleData w
    join ( select d.Gender, Avg(d.Weight) as AvgWeight, 
                  2*STDDEVP(d.Weight) StdDeviation
             from ScaleData d
            group by d.Gender
         ) d
      on w.Gender = d.Gender
     and w.Weight between d.AvgWeight-d.StdDeviation 
                      and d.AvgWeight+d.StdDeviation
   group by w.Gender

Puede haber una mejor manera de hacer esto, pero funciona y funciona bien. Si ha encontrado otra solución más eficiente, me gustaría saber al respecto.

NOTA: Lo anterior elimina la parte superior e inferior al 5% de los valores extremos fuera de la imagen para el propósito de la media. Se puede ajustar el número de valores atípicos eliminadas mediante el ajuste de la 2 * 2 * en el STDDEVP según: http: / /en.wikipedia.org/wiki/Standard_deviation

Si quiere simplemente analizarlo, supongamos que desea calcular la correlación con otra variable, está bien para excluir los valores extremos. Pero si se desea modelar / predecir, no siempre es la mejor manera de excluirlos de inmediato.

Trate de tratarlo con métodos tales como la limitación o si sospecha que los valores atípicos contienen información / patrón, y luego sustituirlo por desaparecidos, y el modelo / predecirlo. He escrito algunos ejemplos de cómo se puede ir sobre esto aquí usando R .

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow