Когда p-значения обманчивы?

https://datascience.stackexchange.com/questions/71

16-10-2019
|

Вопрос

Каковы условия данных, которые мы должны следить за тем, где p-значения могут быть не лучшим способом определения статистической значимости? Существуют ли конкретные типы проблем, которые попадают в эту категорию?

Решение

Вы спрашиваете о Данные дноуглубительные работы, что происходит при тестировании очень большого количества гипотез по набору данных или гипотез тестирования на набор данных, который был предложены теми же данными.

В частности, проверьте Множественная опасность гипотезы, а также Тестирование гипотез, предложенных данными.

Решение состоит в том, чтобы использовать какую -то коррекцию для Ложно обнаружение или же Семейная частота ошибок, такие как Метод Шеффэ или (очень старая школа) Коррекция Бонферрони.

Несколько менее строгим образом, это может помочь фильтровать ваши открытия с помощью доверительного интервала для отношения шансов (или) для каждого статистического результата. Если 99% доверительный интервал для отношения шансов составляет 10-12, то или <= 1 с некоторыми очень сильно Небольшая вероятность, особенно если размер выборки также большой. Если вы найдете что -то подобное, это, вероятно, сильный эффект, даже если он вышел из испытания миллионов гипотез.

Другие советы

Вы не должны рассматривать значение p вне контекста.

Одна довольно основная точка (как показано xkcd) заключается в том, что вам нужно рассмотреть, сколько испытаний вы на самом деле делаете. Очевидно, вы не должны быть шокированы, увидев P <0,05 для одного из 20 тестов, даже если нулевая гипотеза верна каждый раз.

Более тонкий пример этого встречается у физики высокой энергии и известен как Эффект Look-else. Анкет Чем больше пространство параметров, которое вы ищете сигнал, который может представлять собой новую частицу, тем больше вероятность того, что вы увидите кажущий сигнал, который действительно связан с случайными колебаниями.

Одна вещь, о которой вы должны знать, это размер выборки, который вы используете. Очень большие образцы, такие как экономисты, использующие данные переписи, приведут к деффированным p-значениям. Эта бумага "Слишком большой, чтобы терпеть неудачу: большие образцы и проблема p-значения" охватывает некоторые проблемы.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange