Sull'interpretazione la significatività statistica di R quadrato

https://datascience.stackexchange.com/questions/8806

16-10-2019
|

Domanda

ho eseguito un'analisi di regressione lineare a due serie di dati, ciascuno dei quali ha valori 50. Ho fatto l'analisi in SPSS e di conseguenza ottenuto un tavolo che dice che il mio adjusted R squared è 0.145 e il suo significato è 0.004.

Essendo 0.004 < 0.05, presumo il mio adjusted R squared è significativo.

1) Vuol dire la mia adjusted R squared è credibile

2) Cosa succede se si ottiene un significato che è > 0.05? Implica la adjusted R squared si può fidare con credibilità, ma anche che le due serie di dati non sono o scarsamente correlata?

Soluzione

Il p-value è la forza delle prove contro l'ipotesi nulla. In questo caso il nulla è che il coefficiente è uguale a zero. Così il vostro p-value dice che questa è la prova molto debole contro il nulla in modo da modello è probabile che sia descrivere il sistema sottostante dei dati.

R-squared descrive la percentuale di variazione che si spiega con il modello. Il vostro valore è molto basso; 14,5%. Di tutte le "attività" nei dati vostro modello sta spiegando solo il 14,5% di esso.

In modo da avere una situazione dovesse modello è più probabile spiegando variazione di dati, ma non spiega molto di esso. Vorrei suggerire alterare il modello e refitting.

Altri suggerimenti

La risposta accettato è corretta in termini di spiegare l'interpretazione di R ^ 2 come la quantità di variazione nella variazione dipendente causata dalla variazione dipendente. Si va da 0,0 (0%) a 1,00 (100%) di variazione correlata (per una regressione lineare), quindi se 100%, tutte le variazioni di Y (dipendente o variabile predittore) può essere attribuito ai cambiamenti X ( r singola variabile di risposta). coefficienti di regressione rappresentano la variazione media variabile risposta per un'unità di cambiamento nella variabile predittore tenendo altri predittori nel modello costante. Questo controllo statistico che fornisce regressione è importante perché isola il ruolo di una variabile da tutti gli altri nel modello.

L'interpretazione valore p è la probabilità si può rifiutare l'ipotesi nulla. Il p-valore per ogni termine testa l'ipotesi nulla che il coefficiente è uguale a zero (nessun effetto). Un basso valore p (diciamo <0.05) indica che è possibile rifiutare l'ipotesi nulla. In altre parole, un predittore che ha un p-value basso è probabile che sia una significativa aggiunta al vostro modello perché le variazioni di valore del predittore sono legati ai cambiamenti nella variabile di risposta.

Al contrario, una più grande (trascurabile) p-value suggerisce che le variazioni del predittore non sono associati a cambiamenti nella risposta.

si potrà mai ottenere un p = 0 in uno scenario reale, perché non c'è modo di eliminare il caso che il nulla è corretto, perché ci sarà qualche errore nelle osservazioni dovuto la misura da sola, lasciando fuori altri fattori. È necessario stabilire come certi è necessario essere per stare tranquillo. Non c'è nulla di magico nel p = 0.05 numero, è uno che è stato stabilito come uno standard e ora viene preso come dottrinale da molti non comprenderlo. Se si può stare tranquillo nella tua situazione con una certezza di 80% che il nulla può essere rifiutata, allora non c'è niente di sbagliato in questo livello.

La vera ragione per cui ho voluto aggiungere una risposta è che l'altra risposta non si occupa la vostra utilizzando R regolato ^ 2 , a volte chiamato barra di R al quadrato . R rettificato ^ 2 è non R ^ 2 e non deve essere confusa per esso. R ^ 2> = regolata R ^ 2 e se siete solo a che fare con la correlazione tra due variabili, come accennato nella tua domanda, è necessario utilizzare R ^ 2. R ^ 2 misura la correlazione tra due variabili. R rettificato ^ 2 ha ulteriori fattori che tentano di tenere conto del fenomeno della R2 automaticamente e spurio crescenti quando le variabili esplicative supplementari sono aggiunti al modello.

Il R2 regolato può essere negativa mentre R ^ 2 non può essere negativo. Il valore regolato ^ R 2 sarà sempre minore o uguale a quella della R ^ 2. Diversamente R ^ 2, R ^ regolata solo 2 aumenta quando l'aumento in R ^ 2 (a causa dell'inclusione di una nuova variabile esplicativa) è più di quanto ci si aspetterebbe di vedere per caso. Se un insieme di variabili esplicative con una gerarchia predeterminata di importanza vengono introdotti in uno regressione alla volta, con la R regolata ^ 2 calcolata ogni volta, il livello in cui R ^ 2 raggiunge un massimo, e diminuisce in seguito regolata, sarebbe la regressione con la combinazione ideale di avere la soluzione migliore senza termini eccesso / inutili.

adjusted R2 è particolarmente utile nella fase di selezione delle caratteristiche di costruzione di un modello.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange