ビッグデータの小さなp値の代替品はありますか？

https://datascience.stackexchange.com/questions/75

16-10-2019
|

質問

ビッグデータで小さなp値が豊富である場合、数百万のサンプルを含むデータのp値に匹敵する置換は何ですか？

解決

言葉の厳格な意味には置き換えはありません。代わりに、他の手段を見る必要があります。

あなたが見る他の測定値は、あなたが解決している問題のタイプに依存します。一般に、P値が小さくなっている場合は、効果サイズの大きさも考慮してください。それは非常に統計的に有意であるかもしれませんが、実際には無意味です。また、効果サイズの信頼区間を報告することも役立ちます。

考えてみますこの紙ダンスの答えで指示されたようにこの質問.

他のヒント

参照してください p値はいつ欺cept的ですか？

ペアワイズ相関（たとえば）でテストできる多くの変数がある場合、置換は、のいずれかの修正を使用することです。誤検出率（特定の発見が偽であるという確率を制限するため）または家族向けエラー率（1つ以上の誤った発見の確率を制限するため）。たとえば、Holm -Bonferroniメソッドを使用する場合があります。

多くの変数ではなく大きなサンプルの場合、何か他のものが必要です。クリストファーが言ったように、これを治療する方法の効果の大きさ。これらの2つのアイデアを組み合わせることで、効果の大きさの周りに信頼区間を使用し、信頼区間のp値に偽発見率の修正を適用する場合があります。修正された信頼区間で最も低い境界でさえ高くなる効果は、巨大なデータセットサイズに関係なく、強力な効果になる可能性があります。このようにして、信頼区間と誤った発見率の修正を組み合わせた公開された論文については知りませんが、それは簡単で直感的に理解できるアプローチのようです。

これをさらに改善するには、ノンパラメトリックな方法を使用して信頼区間を推定します。分布がここで非常に楽観的な推定値を提供する可能性が高いと仮定し、データに分布を適合させることさえ不正確である可能性があります。信頼区間のエッジを過ぎた分布の形状に関する情報は、データの比較的小さなサブサンプルから得られるため、これは本当に注意する必要がある場所です。ブートストラップを使用して、ノンパラメトリック信頼区間を取得できます。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange