統(tǒng)計-R(相關(guān)系數(shù))與R^2(決定系數(shù))傻傻分不清

讀文獻(xiàn)時,有時求相關(guān)系數(shù),有時求擬合優(yōu)度,到底都是什么呢?

先給結(jié)論,R與R^2沒有關(guān)系,就如同標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤差沒有關(guān)系一樣。

1. 相關(guān)系數(shù)(R)

  • 定義:變量之間線性相關(guān)的度量。分三種,spearman, pearson, kendall
  • 公式:
    image.png
  • 解釋:自變量X和因變量Y的協(xié)方差/標(biāo)準(zhǔn)差的乘積。
    * 協(xié)方差:兩個變量變化是同方向的還是異方向的。X高Y也高,協(xié)方差就是正,相反,則是負(fù)。
    * 為什么要除標(biāo)準(zhǔn)差:標(biāo)準(zhǔn)化。即消除了X和Y自身變化的影響,只討論兩者之間關(guān)系。
    * 因此,相關(guān)系數(shù)是一種特殊的協(xié)方差。

2. 決定系數(shù)(R^2)

  • 定義:對模型進(jìn)行線性回歸后,評價回歸模型系數(shù)擬合優(yōu)度。

  • 公式:R2=SSR/SST=1-SSE/SST
    SST (total sum of squares):總平方和
    SSR (regression sum of squares):回歸平方和
    SSE (error sum of squares) :殘差平方和。

  • 解釋:殘差(residual):實(shí)際值與觀察值之間的差異

    • 在一組數(shù)據(jù)中,采用平均值做基線模型(圖中黑線)
      我們的模型(藍(lán)線)都與這個黑線比較,來判斷模型的好壞
    • var=sum(i-mean)^2
image.png
  • 結(jié)論:R^2=81%,因變量Y的81%變化由我們的自變量X來解釋。
  • R^2 的缺陷:當(dāng)我們?nèi)藶榈南蛳到y(tǒng)中添加過多的自變量,SSE會減少,從而R^2變大。因此我們采用校正R方,懲罰了過多無意義的自變量:


    image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容