Есть ли замена для небольших p-значений в больших данных?

https://datascience.stackexchange.com/questions/75

16-10-2019
|

Вопрос

Если небольшие p-значения многочисленны в больших данных, что является сопоставимой заменой для значений p в данных с миллионом образцов?

Решение

В строгом смысле этого слова нет замены. Вместо этого вы должны посмотреть на другие меры.

Другие меры, на которые вы смотрите, зависят от того, какую проблему вы решаете. В общем, если у вас есть небольшое значение p, также рассмотрите величину величины эффекта. Это может быть очень статистически значимым, но на практике бессмысленнее. Также полезно сообщить о доверительном интервале величины эффекта.

Я бы рассмотрел Эта бумага как навязывается в ответе Данка на этот вопрос.

Другие советы

Смотрите также Когда p-значения обманчивы?

Когда есть много переменных, которые можно проверить на парную корреляцию (например), замена заключается в использовании любой из исправлений для Ложно обнаружение (Чтобы ограничить вероятность того, что любое данное обнаружение является ложным) или Семейная частота ошибок (Чтобы ограничить вероятность одного или нескольких ложных открытий). Например, вы можете использовать метод Холм -Донферрони.

В случае большой выборки, а не большого количества переменных, нужно что -то еще. Как сказал Кристофер, величина эффекта - способ обработки этого. Сочетая эти две идеи, вы можете использовать доверительный интервал вокруг вашей величины эффекта и применить ложную коррекцию скорости обнаружения к значению P доверительного интервала. Эффекты, для которых даже самая низкая граница скорректированного доверительного интервала, вероятно, будут сильными эффектами, независимо от огромного размера набора данных. Я не знаю ни о какой опубликованной статье, которая сочетает в себе доверительные интервалы с исправительной коррекцией скорости обнаружения, но это кажется прямым и интуитивно понятным подходом.

Чтобы сделать это еще лучше, используйте непараметрический способ оценить доверительные интервалы. Предполагая, что распределение, вероятно, даст здесь очень оптимистичные оценки, и даже соответствие распределению данных, вероятно, будет неточным. Поскольку информация о форме распределения после края доверительного интервала поступает из относительно небольшой подвыборки данных, именно здесь он действительно осторожен. Вы можете использовать начальную загрузку, чтобы получить непараметрический доверительный интервал.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange