讀文獻(xiàn)時,有時求相關(guān)系數(shù),有時求擬合優(yōu)度,到底都是什么呢?
先給結(jié)論,R與R^2沒有關(guān)系,就如同標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤差沒有關(guān)系一樣。
1. 相關(guān)系數(shù)(R)
- 定義:變量之間線性相關(guān)的度量。分三種,spearman, pearson, kendall
-
公式:image.png
- 解釋:自變量X和因變量Y的協(xié)方差/標(biāo)準(zhǔn)差的乘積。
* 協(xié)方差:兩個變量變化是同方向的還是異方向的。X高Y也高,協(xié)方差就是正,相反,則是負(fù)。
* 為什么要除標(biāo)準(zhǔn)差:標(biāo)準(zhǔn)化。即消除了X和Y自身變化的影響,只討論兩者之間關(guān)系。
* 因此,相關(guān)系數(shù)是一種特殊的協(xié)方差。
2. 決定系數(shù)(R^2)
定義:對模型進(jìn)行線性回歸后,評價回歸模型系數(shù)擬合優(yōu)度。
公式:R2=SSR/SST=1-SSE/SST
SST (total sum of squares):總平方和
SSR (regression sum of squares):回歸平方和
SSE (error sum of squares) :殘差平方和。-
解釋:殘差(residual):實(shí)際值與觀察值之間的差異
- 在一組數(shù)據(jù)中,采用平均值做基線模型(圖中黑線)
我們的模型(藍(lán)線)都與這個黑線比較,來判斷模型的好壞 - var=sum(i-mean)^2
- 在一組數(shù)據(jù)中,采用平均值做基線模型(圖中黑線)

image.png
- 結(jié)論:R^2=81%,因變量Y的81%變化由我們的自變量X來解釋。
-
R^2 的缺陷:當(dāng)我們?nèi)藶榈南蛳到y(tǒng)中添加過多的自變量,SSE會減少,從而R^2變大。因此我們采用校正R方,懲罰了過多無意義的自變量:
image.png

