?本文為 劉強,裴艷波,張貝貝. R語言與現(xiàn)代統(tǒng)計方法. 一書的閱讀記錄,僅有粗略的操作步驟。沒有數(shù)理統(tǒng)計基礎(chǔ)及相關(guān)數(shù)學(xué)知識的人慎用此書以及本文。
一、回歸
fit <- lm(formula, data=data)
formula部分可以為y~x1+x2+x3
+ 添加一個自變量,兩個自變量之間為并列。
:冒號表示兩個自變量的交互項
* 星號表示兩者相加且相乘(x1*x2:x1+x2+x1:x2)
lm(X1X4*X5,data=xxx)等同于lm(X1X4+X5+X4:X5,data=xxx)
fit #輸出回歸系數(shù)Coefficients:
summary(fit)#輸出殘差Residuals、回歸系數(shù)Coefficients:、擬合程度R2和F
aov(fit)#自變量的平方和
回歸診斷
- gauss-markov假設(shè)的診斷:參見:樣本獨立、正態(tài)、等方差
通過觀察誤差項是否滿足以下假設(shè)來檢驗:
- 殘差與擬合值獨立
- 殘差正態(tài)
par(mfrow=c(2,2))#
plot(fit)#四幅回歸模型檢驗圖
par()函數(shù)參見

plot(fit)
- 左上:殘差與擬合值的散點圖,擬合值(y值)取橫軸的值時,它的殘差為縱軸的值。
- 右上:根號下學(xué)生化殘差和擬合值的散點圖
- 左下:殘差的qq圖
- 右下:cook distance紅線為 等值線(of cook distance)
1.1. 異方差性
H0:誤差的方差恒定
car包
library(car)
ncvTest(fit)
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 0.1310691, Df = 1, p = 0.71733
結(jié)果大于0.05則表示H0成立,不存在異方差性
car::spreadLevelPlot(fit)
## Suggested power transformation: -0.646129
圖為學(xué)生化后的殘差與擬合值的散點圖,出現(xiàn)水平線表示等方差,斜線則為異方差(方差不齊)。
Suggested power transformation: -0.646129表示將數(shù)據(jù)進行 -0.646129次方的轉(zhuǎn)換之后異方差性會減到最小。

spreadLevelPlot(fit)
1.2. 自相關(guān)(自變量自己會影響自己,19年的物價會影響20年的物價)
- 當(dāng)殘差與自變量互為獨立時,D=2 或 DW 越接近2,判斷無自相關(guān)性把握越大。
- 當(dāng)相鄰兩點的殘差為正相關(guān)時,D<2,DW 越接近于0,正自相關(guān)性越強。
- 當(dāng)相鄰兩點的殘差為負相關(guān)時,D>2,DW 越接近于4,負自相關(guān)性越強。
durbin-waston:
car::durbinWatsonTest(fit)
## lag Autocorrelation D-W Statistic p-value
## 1 0.1345412 0.8877734 0.002
## Alternative hypothesis: rho != 0
- 多重共線性
矩陣x是列滿秩矩陣-->各列變量之間線性無關(guān)
2.1. VIF
car::vif(fit)

vif
2.2. 特征值法
接近0則有多多重共線性
x <- as.matrix(cbind(rep(1,nrow(data)),data[,-y]))
xx <- t(x)%*%x
xx
## rep(1, nrow(xxx)) X2 X3
## rep(1, nrow(xxx)) 11.0 3.479343e+05 1508505
## X2 347934.3 1.168701e+10 47854633475
## X3 1508504.8 4.785463e+10 206909714762
2.3. 條件數(shù)法

條件數(shù)ki
\lambdai趨近于0,則ki趨近于正無窮
- 強影響點
3.1. 異常值
3.2. 高杠桿值
3.3. 強影響點