我们应该注意的数据条件是什么,其中P值可能不是决定统计意义的最佳方法?是否有特定的问题类型属于此类别?

有帮助吗?

解决方案

你在问 数据挖泥, ,这是在针对数据集测试大量假设或针对相同数据建议的数据集测试假设时发生的情况。

特别是查看 多个假设危害, , 和 测试数据建议的假设.

解决方案是使用某种更正 错误的发现率 或者 familywise错误率, , 如 Scheffé的方法 或(非常老式的) Bonferroni校正.

以某种程度的严格方式,对于每个统计结果的优势比(或),它可能有助于通过置信区间过滤您的发现。如果优势比的99%置信区间为10-12,则OR为<= 1 极其 较小的概率,尤其是如果样本量也很大。如果您发现这样的东西,即使它来自数百万个假设的考验,也可能是强大的效果。

其他提示

您不应该考虑p值之外的上下文。

一个相当基本的点(如 XKCD)您需要考虑实际在进行多少测试。显然,即使每次无效假设都是正确的,您也不应该震惊地看到P <0.05。

一个更微妙的例子发生在高能物理学中,被称为 查找层次的效果. 。您搜索可能代表新粒子的信号的参数空间越大,您就越有可能看到一个明显的信号实际上只是由于随机波动所致。

您应该注意的一件事是您使用的样本量。非常大的样本,例如使用人口普查数据的经济学家,将导致缩放的P值。这张纸 “太大而无法失败:大样本和P值问题” 涵盖了一些问题。

许可以下: CC-BY-SA归因
scroll top