¿Hay un reemplazo para los valores de p pequeños en grandes datos?

https://datascience.stackexchange.com/questions/75

16-10-2019
|

Pregunta

Si los valores de p pequeños son abundantes en grandes volúmenes de datos, lo que es un reemplazo comparable para los valores de p de datos con millones de muestras?

Solución

No hay sustituto en el sentido estricto de la palabra. En su lugar debe mirar otras medidas.

Las otras medidas se mire depende de lo que tipo de problema que se está resolviendo. En general, si usted tiene un pequeño valor de p, también considerar la magnitud del tamaño del efecto. Puede ser altamente estadísticamente significativa pero en la práctica sin sentido. También es útil para informar del intervalo de confianza del tamaño del efecto.

este documento como mentoned en la respuesta de DanC a esta pregunta .

Otros consejos

Cuando los valores de p son engañosas?

Cuando hay una gran cantidad de variables que puede ser probado para la correlación de pares (por ejemplo), la sustitución es el uso de cualquiera de las correcciones para tasa de falso descubrimiento (a la probabilidad de que cualquier límite descubrimiento dado es falso) o familywise tasa de error (a la probabilidad límite de uno o más falsos descubrimientos). Por ejemplo, es posible utilizar el método de Bonferroni-Holm.

En el caso de una muestra grande en lugar de una gran cantidad de variables, se necesita algo más. Como dijo Christopher, la magnitud del efecto de una manera de tratar esto. La combinación de estas dos ideas, es posible utilizar un intervalo de confianza alrededor de la magnitud del efecto, y aplicar una corrección falsa tasa de descubrimiento para el p-valor del intervalo de confianza. probable que haya efectos fuertes, independientemente de gran tamaño del conjunto de datos de los efectos para los que incluso el más bajo con destino del intervalo de confianza es alto corregido son. No estoy al tanto de cualquier documento publicado que los intervalos de confianza se combina con falso descubrimiento tasa de corrección de esta manera, pero parece que un enfoque sencillo e intuitivo comprensible.

Para hacer esto aún mejor, usar una forma no paramétrica para estimar los intervalos de confianza. Suponiendo una distribución es probable que dan estimaciones muy optimistas aquí, e incluso el ajuste de una distribución de probabilidad es que los datos son inexactos. Dado que la información acerca de la forma de la distribución más allá de los bordes del intervalo de confianza viene de una relativamente pequeña submuestra de los datos, esto es donde realmente la pena tener cuidado. Puede utilizar bootstrapping para obtener un intervalo de confianza no paramétrico.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange