R語言-方差分析與回歸分析

?本文為 劉強,裴艷波,張貝貝. R語言與現(xiàn)代統(tǒng)計方法. 一書的閱讀記錄,僅有粗略的操作步驟。沒有數(shù)理統(tǒng)計基礎(chǔ)及相關(guān)數(shù)學(xué)知識的人慎用此書以及本文。

一、回歸

fit <- lm(formula, data=data)

formula部分可以為y~x1+x2+x3

+ 添加一個自變量,兩個自變量之間為并列。
:冒號表示兩個自變量的交互項
* 星號表示兩者相加且相乘(x1*x2:x1+x2+x1:x2)

lm(X1X4*X5,data=xxx)等同于lm(X1X4+X5+X4:X5,data=xxx)

fit #輸出回歸系數(shù)Coefficients:
summary(fit)#輸出殘差Residuals、回歸系數(shù)Coefficients:、擬合程度R2和F
aov(fit)#自變量的平方和

回歸診斷

  1. gauss-markov假設(shè)的診斷:參見:樣本獨立、正態(tài)、等方差

通過觀察誤差項是否滿足以下假設(shè)來檢驗:

  • 殘差與擬合值獨立
  • 殘差正態(tài)
par(mfrow=c(2,2))#
plot(fit)#四幅回歸模型檢驗圖

par()函數(shù)參見

plot(fit)
  • 左上:殘差與擬合值的散點圖,擬合值(y值)取橫軸的值時,它的殘差為縱軸的值。
  • 右上:根號下學(xué)生化殘差和擬合值的散點圖
  • 左下:殘差的qq圖
  • 右下:cook distance紅線為 等值線(of cook distance)

1.1. 異方差性

H0:誤差的方差恒定

car包

library(car)
ncvTest(fit)
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 0.1310691, Df = 1, p = 0.71733

結(jié)果大于0.05則表示H0成立,不存在異方差性

car::spreadLevelPlot(fit)
## Suggested power transformation:  -0.646129

圖為學(xué)生化后的殘差與擬合值的散點圖,出現(xiàn)水平線表示等方差,斜線則為異方差(方差不齊)。

Suggested power transformation: -0.646129表示將數(shù)據(jù)進行 -0.646129次方的轉(zhuǎn)換之后異方差性會減到最小。

spreadLevelPlot(fit)

1.2. 自相關(guān)(自變量自己會影響自己,19年的物價會影響20年的物價)

  • 當(dāng)殘差與自變量互為獨立時,D=2 或 DW 越接近2,判斷無自相關(guān)性把握越大。
  • 當(dāng)相鄰兩點的殘差為正相關(guān)時,D<2,DW 越接近于0,正自相關(guān)性越強。
  • 當(dāng)相鄰兩點的殘差為負相關(guān)時,D>2,DW 越接近于4,負自相關(guān)性越強。

durbin-waston:

car::durbinWatsonTest(fit)
## lag Autocorrelation D-W Statistic p-value
##   1       0.1345412     0.8877734   0.002
##  Alternative hypothesis: rho != 0
  1. 多重共線性

矩陣x是列滿秩矩陣-->各列變量之間線性無關(guān)

2.1. VIF

car::vif(fit)

vif

2.2. 特征值法

接近0則有多多重共線性

x <- as.matrix(cbind(rep(1,nrow(data)),data[,-y]))
xx <- t(x)%*%x
xx
##                   rep(1, nrow(xxx))           X2           X3
## rep(1, nrow(xxx))          11.0 3.479343e+05      1508505
## X2                         347934.3 1.168701e+10  47854633475
## X3                        1508504.8 4.785463e+10 206909714762

2.3. 條件數(shù)法


條件數(shù)ki

\lambdai趨近于0,則ki趨近于正無窮

  1. 強影響點

3.1. 異常值

3.2. 高杠桿值

3.3. 強影響點

二、單因素方差分析

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容