Gibt es einen Ersatz für kleine P-Werte in Big Data?

https://datascience.stackexchange.com/questions/75

16-10-2019
|

Frage

Wenn kleine P-Werte in Big Data reichlich vorhanden sind, was ist ein vergleichbarer Ersatz für P-Werte in Daten mit Millionen von Proben?

Lösung

Es gibt keinen Ersatz im strengen Sinne des Wortes. Stattdessen sollten Sie sich andere Maßnahmen ansehen.

Die anderen Maßnahmen, die Sie betrachten, hängen davon ab, welche Art von Problem Sie lösen. Wenn Sie einen kleinen p-Wert haben, berücksichtigen Sie im Allgemeinen auch die Größe der Effektgröße. Es mag statistisch signifikant sein, aber in der Praxis bedeutungslos. Es ist auch hilfreich, das Konfidenzintervall der Effektgröße zu melden.

Ich würde nachdenken dieses Papier wie in Dancs Antwort auf diese Frage.

Andere Tipps

Siehe auch Wann täuschen P-Werte?

Wenn es viele Variablen gibt, die (z. B. auf eine paarweise Korrelation) getestet werden können Falsche Entdeckungsrate (um die Wahrscheinlichkeit zu begrenzen, dass eine bestimmte Entdeckung falsch ist) oder Familienwise Fehlerrate (Wahrscheinlichkeit einer oder mehrerer falscher Entdeckungen einschränken). Beispielsweise können Sie die Holm -Bonferroni -Methode verwenden.

Bei einer großen Stichprobe und nicht einer vielen Variablen wird etwas anderes benötigt. Wie Christopher sagte, ist die Auswirkungen der Wirkung ein Weg, dies zu behandeln. Wenn Sie diese beiden Ideen kombinieren, können Sie ein Konfidenzintervall um Ihre Wirkungsgrenze verwenden und eine falsche Entdeckungsrate-Korrektur auf den p-Wert des Konfidenzintervalls anwenden. Die Auswirkungen, für die selbst die niedrigste Grenze des korrigierten Konfidenzintervalls hoch ist, sind wahrscheinlich starke Auswirkungen, unabhängig von der großen Datensatzgröße. Mir ist kein veröffentlichtes Papier bekannt, das Konfidenzintervalle mit einer Korrektur der falschen Entdeckungsrate kombiniert, aber es scheint ein unkomplizierter und intuitiv verständlicher Ansatz zu sein.

Um dies noch besser zu machen, verwenden Sie eine nicht parametrische Methode, um Konfidenzintervalle abzuschätzen. Unter der Annahme, dass eine Verteilung hier wahrscheinlich sehr optimistische Schätzungen liefert, ist es wahrscheinlich ungenau, eine Verteilung an die Daten anzupassen. Da die Informationen über die Form der Verteilung über die Ränder des Konfidenzintervalls hinaus aus einer relativ kleinen Teilstichprobe der Daten stammen, lohnt es sich wirklich, um vorsichtig zu sein. Sie können Bootstrapping verwenden, um ein nicht parametrisches Konfidenzintervall zu erhalten.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange