単一変動最小二乗回帰で複数のRスクエアと調整されたR-squaredの違いは何ですか?
-
03-10-2019 - |
質問
誰かが統計的に素朴なことを説明できますか Multiple R-squared
と Adjusted R-squared
は?次のように、単一変動回帰分析を行っています。
v.lm <- lm(epm ~ n_days, data=v)
print(summary(v.lm))
結果:
Call:
lm(formula = epm ~ n_days, data = v)
Residuals:
Min 1Q Median 3Q Max
-693.59 -325.79 53.34 302.46 964.95
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2550.39 92.15 27.677 <2e-16 ***
n_days -13.12 5.39 -2.433 0.0216 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746, Adjusted R-squared: 0.1451
F-statistic: 5.921 on 1 and 28 DF, p-value: 0.0216
解決
調整されたR-squaredの「調整」は、変数の数と観測数に関連しています。
モデルに変数(予測因子)を追加し続けると、R -squaredが改善されます - つまり、予測因子は分散を説明するように見えます - しかし、その改善の一部は偶然だけのためである可能性があります。したがって、調整されたr-squaredは、n =観測数とk =変数の数(予測因子)を考慮して、これを修正しようとします。
あなたは単一のバリエートを持っているので、おそらくあなたの場合は懸念ではありません。
いくつかの参照:
他のヒント
調整されたR-squaredは、R2の値に近いが、それとは異なる。 SSRの説明された合計と正方形SSYの合計に基づいている代わりに、それは全体的な分散(通常計算しない量)、S2T = SSY/(n -1)、および誤差分散MSEに基づいています(ANOVAテーブルから)とこのように解決されます:調整済みr -squared =(s2t -mse) / s2t。
このアプローチは、説明変数を追加するために適合の改善を判断するためのより良い基盤を提供しますが、R2にある単純な要約解釈はありません。
間違いを犯していない場合は、次のように調整されたRスクエアとRスクエアの値を確認する必要があります。
s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T
反対側では、R2は次のとおりです。SSR/SSY、ここでSSR = SSY -SSE
attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY
R-squaredは、モデルの変数の数に依存しません。調整されたR-squaredはです。
調整されたR-squaredは、説明しようとしている変数と無相関のモデルに変数を追加するためのペナルティを追加します。これを使用して、変数が説明しようとしているものに関連しているかどうかをテストできます。
調整されたR-SquaredはR-Squaredで、モデルの変数の数に依存するようにいくつかの分割が追加されています。
予測変数の数に加えて、上記の調整されたR二乗式もサンプルサイズを調整することに注意してください。小さなサンプルは、一見大きくてR-squaredを与えます。
Ping Yin&Xitao Fan、J。of Experimental Education 69(2):203-224、「重回帰におけるR二乗収縮の推定」は、R-squaredを調整するためのさまざまな方法を比較し、上記の一般的に使用されているものは良くない。彼らはOlkin&Prattフォーミュラをお勧めします。
ただし、人口サイズがこれらの式のいずれかが示すよりもはるかに大きな効果があることを示しています。これらの式のいずれかが、非常に異なるサンプルサイズ(たとえば、2,000対200,000のサンプル、標準式でサンプルサイズベースの調整がほとんどない)で行われた回帰を比較できるほど十分であると確信していません。各サンプルのRスクエアをチェックするために、いくつかの交差検証を行います。