質問

P値が統計的有意性を決定する最良の方法ではない場合、私たちが注意すべきデータ条件は何ですか?このカテゴリに分類される特定の問題タイプはありますか?

役に立ちましたか?

解決

あなたは尋ねています データドレッジ, 、これは、データセットに対して非常に多数の仮説をテストするとき、または同じデータによって提案されたデータセットに対する仮説をテストするときに起こることです。

特に、チェックしてください 複数の仮説の危険, 、 と データによって提案された仮説のテスト.

解決策は、ある種の修正を使用することです 誤検出率 また 家族向けエラー率, 、 そのような シェフの方法 または(非常に古い学校) ボンフェローニ補正.

やや厳密には、それほど厳密ではないが、各統計結果のオッズ比(OR)の信頼区間で発見をフィルタリングするのに役立つ可能性があります。オッズ比の99%信頼区間が10〜12の場合、または<= 1である場合 非常に 特にサンプルサイズも大きい場合は、少量の確率です。このようなものを見つけた場合、それはおそらく何百万もの仮説のテストから出てきたとしても、おそらく強い効果です。

他のヒント

コンテキストからのp値を考慮しないでください。

1つのむしろ基本的なポイント(によって示されています xkcd)実際に行っているテストの数を考慮する必要があるということです。明らかに、毎回帰無仮説が真実であっても、20のテストのうち1つでp <0.05を見ることにショックを受けるべきではありません。

これのより微妙な例は、高エネルギー物理学で発生し、 Look-Elsewhere Effect. 。新しい粒子を表す可能性のある信号を検索するパラメーター空間が大きいほど、ランダムな変動のためだけにある明らかな信号が表示される可能性が高くなります。

注意すべきことの1つは、使用しているサンプルサイズです。国勢調査データを使用しているエコノミストなど、非常に大きなサンプルは、p値が収縮することにつながります。この紙 「失敗するには大きすぎる:大きなサンプルとp値の問題」 いくつかの問題をカバーしています。

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top