Когда p-значения обманчивы?
-
16-10-2019 - |
Вопрос
Каковы условия данных, которые мы должны следить за тем, где p-значения могут быть не лучшим способом определения статистической значимости? Существуют ли конкретные типы проблем, которые попадают в эту категорию?
Решение
Вы спрашиваете о Данные дноуглубительные работы, что происходит при тестировании очень большого количества гипотез по набору данных или гипотез тестирования на набор данных, который был предложены теми же данными.
В частности, проверьте Множественная опасность гипотезы, а также Тестирование гипотез, предложенных данными.
Решение состоит в том, чтобы использовать какую -то коррекцию для Ложно обнаружение или же Семейная частота ошибок, такие как Метод Шеффэ или (очень старая школа) Коррекция Бонферрони.
Несколько менее строгим образом, это может помочь фильтровать ваши открытия с помощью доверительного интервала для отношения шансов (или) для каждого статистического результата. Если 99% доверительный интервал для отношения шансов составляет 10-12, то или <= 1 с некоторыми очень сильно Небольшая вероятность, особенно если размер выборки также большой. Если вы найдете что -то подобное, это, вероятно, сильный эффект, даже если он вышел из испытания миллионов гипотез.
Другие советы
Вы не должны рассматривать значение p вне контекста.
Одна довольно основная точка (как показано xkcd) заключается в том, что вам нужно рассмотреть, сколько испытаний вы на самом деле делаете. Очевидно, вы не должны быть шокированы, увидев P <0,05 для одного из 20 тестов, даже если нулевая гипотеза верна каждый раз.
Более тонкий пример этого встречается у физики высокой энергии и известен как Эффект Look-else. Анкет Чем больше пространство параметров, которое вы ищете сигнал, который может представлять собой новую частицу, тем больше вероятность того, что вы увидите кажущий сигнал, который действительно связан с случайными колебаниями.
Одна вещь, о которой вы должны знать, это размер выборки, который вы используете. Очень большие образцы, такие как экономисты, использующие данные переписи, приведут к деффированным p-значениям. Эта бумага "Слишком большой, чтобы терпеть неудачу: большие образцы и проблема p-значения" охватывает некоторые проблемы.