Esiste un sostituto per piccoli valori di p in Big Data?

https://datascience.stackexchange.com/questions/75

16-10-2019
|

Domanda

Se i piccoli valori di p sono abbondanti in grandi dati, ciò che è un sostituto comparabile per valori di p in dati con milioni di campioni?

Soluzione

Non v'è alcuna sostituzione nel senso stretto della parola. Invece si dovrebbe guardare altre misure.

Le altre misure si guarda dipende da ciò che si tipo di problema si sta risolvendo. In generale, se si dispone di una piccola p-value, prendere in considerazione anche la grandezza della dimensione dell'effetto. Può essere altamente statisticamente significativa ma in pratica priva di senso. E 'anche utile a segnalare l'intervallo di confidenza della dimensione dell'effetto.

questo documento come mentoned nella risposta di Danc questa domanda .

Altri suggerimenti

Quando sono valori di p ingannevole?

Quando ci sono molte variabili che possono essere testati per pair-wise correlazione (per esempio), la sostituzione è di utilizzare qualsiasi delle correzioni per false discovery rate (alla probabilità limite che qualsiasi scoperta è false) o Familywise tasso di errore (al limite in probabilità di uno o più falsi scoperte). Ad esempio, è possibile utilizzare il metodo Holm-Bonferroni.

Nel caso di un ampio campione piuttosto che un sacco di variabili, è necessario qualcos'altro. Come ha detto Christopher, grandezza di modo gli effetti una per il trattamento di questo. La combinazione di queste due idee, è possibile utilizzare un intervallo di confidenza intorno alla vostra portata dell'effetto, e applicare una correzione del tasso di falsi scoperta alla p-value dell'intervallo di confidenza. Gli effetti per i quali anche il più basso legato dell'intervallo di confidenza corretto è alta rischiano di essere forti effetti, indipendentemente dalle dimensioni enormi set di dati. Non sono a conoscenza di alcun documento pubblicato che gli intervalli di confidenza combina con falsa correzione tasso di scoperta in questo modo, ma sembra che un approccio diretto e intuitivo comprensibile.

Per rendere ancora meglio, utilizzare un modo non parametrico per stimare gli intervalli di confidenza. Supponendo una distribuzione rischia di dare stime molto ottimistiche qui, e anche addice una distribuzione ai dati è probabile che sia impreciso. Dal momento che le informazioni relative alla forma della distribuzione oltre i bordi dell'intervallo di confidenza viene da un relativamente piccolo sottocampione dei dati, questo è dove si paga davvero di stare attenti. È possibile utilizzare bootstrap per ottenere un intervallo di confidenza non parametrico.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange