Y at-il un remplacement pour les petites valeurs de p en gros volumes de données?

https://datascience.stackexchange.com/questions/75

16-10-2019
|

Question

Si les petites valeurs de p sont abondantes dans les grandes données, ce qui est un remplacement comparable pour les valeurs de p dans les données avec des millions d'échantillons?

La solution

Il n'y a pas de remplacement au sens strict du mot. Au lieu de cela, vous devriez regarder d'autres mesures.

Les autres mesures que vous regardez dépend de ce que vous tapez du problème que vous résolvez. En général, si vous avez une petite valeur p, également tenir compte de l'ampleur de la taille de l'effet. Il peut être très statistiquement significative, mais dans la pratique dénuée de sens. Il est également utile de signaler l'intervalle de confiance de la taille de l'effet.

J'envisagerait cet article comme mentoned dans la réponse de DanC cette question.

Autres conseils

Voir aussi Quand les valeurs p trompeuses?

Quand il y a beaucoup de variables qui peuvent être testées pour la corrélation par paire (par exemple), le remplacement est d'utiliser l'une des corrections taux de découverte faux (pour limiter la probabilité que toute découverte donnée est faux) ou Familywise taux d'erreur (probabilité de limite d'un ou plusieurs fausses découvertes). Par exemple, vous pouvez utiliser la méthode Holm-Bonferroni.

Dans le cas d'un grand échantillon plutôt que d'un grand nombre de variables, il faut autre chose. Comme Christopher a dit, l'ampleur de l'effet un moyen de traiter ce sujet. La combinaison de ces deux idées, vous pouvez utiliser un intervalle de confiance autour de votre ampleur de l'effet, et appliquer une correction de taux de faux positifs à la p-valeur de l'intervalle de confiance. Les effets pour lesquels même la plus faible liée de l'intervalle de confiance corrigé est élevé sont susceptibles d'avoir des effets forts, quelle que soit la taille énorme du jeu de données. Je ne suis pas au courant de tout document publié qui combine des intervalles de confiance avec correction du taux de fausse découverte de cette façon, mais il semble comme une approche simple et intuitive compréhensible.

Pour faire encore mieux, utiliser de manière non paramétrique pour estimer les intervalles de confiance. En supposant une distribution est susceptible de donner des estimations très optimistes ici, et le montage même une distribution aux données est susceptible d'être inexactes. Étant donné que les informations sur la forme de la distribution au-delà des bords de l'intervalle de confiance vient d'un sous-échantillon relativement faible des données, c'est là où il paie vraiment être prudent. Vous pouvez utiliser bootstrapping pour obtenir un intervalle de confiance non paramétrique.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange