在大数据中，是否可以替代小型P值？

https://datascience.stackexchange.com/questions/75

16-10-2019
|

题

如果大数据中的小p值足够丰富，那么用数百万个样本的数据中的p值可比替代品是什么？

解决方案

在严格的意义上没有替代。相反，您应该看其他措施。

您看的其他措施取决于您要解决的问题类型。通常，如果您的p值很小，也要考虑效果大小的大小。它可能具有高度统计学意义，但实际上毫无意义。报告效果大小的置信区间也很有帮助。

我会考虑的这张纸正如《丹克的回答》中的言论这个问题.

其他提示

也可以看看 p值何时欺骗？

当有很多变量可以测试以进行配对相关性（例如）时，替换是使用任何校正错误的发现率（限制任何给定发现是错误的概率）或 familywise错误率（限制一个或多个错误发现的概率）。例如，您可以使用Holm -Bonferroni方法。

对于大型样本而不是很多变量，需要其他一些东西。正如克里斯托弗（Christopher）所说，效果的幅度是对待这种情况的一种方法。结合这两个想法，您可能会在效果范围内使用置信区间，并将错误的发现率校正应用于置信区间的p值。校正置信区间中最低界限的影响很高，无论数据集大小如何，都可能是强大的效果。我不知道有任何已发表的论文将置信区间与以这种方式纠正的错误发现率更正相结合，但这似乎是一种直接且直觉上可以理解的方法。

为了使它变得更好，请使用非参数方式来估计置信区间。假设分布可能会在这里给出非常乐观的估计，即使将分布拟合到数据也可能不准确。由于有关置信区间的边缘的分布形状的信息来自数据的相对较小的子样本，因此，这确实是要小心的。您可以使用自举来获得非参数置信区间。

许可以下： CC-BY-SA 和归因

不隶属于 datascience.stackexchange