R語言介紹
統(tǒng)計(jì)介紹
2.1變量度量類型
名義型變量
等級型變量
連續(xù)型變量
等級變量差值無意義,連續(xù)變量差值有意義
2.2抽樣與統(tǒng)計(jì)推斷
從樣本的情況推斷總體的情況--統(tǒng)計(jì)推斷
統(tǒng)計(jì)推斷:①我們拿到的是樣本的數(shù)據(jù)
2.3連續(xù)變量的描述
平均①中心水平②代表性③哪個(gè)統(tǒng)計(jì)量最恰當(dāng)④方差、標(biāo)準(zhǔn)差、極差、四分衛(wèi)差(內(nèi)分位差)
峰度、偏度
summary函數(shù)
tapply函數(shù)
2.4連續(xù)變量的圖形展示
正態(tài)分布左右對稱,均值=中位數(shù)=眾數(shù)
盒須圖--boxplot函數(shù)
PP圖、QQ圖用來檢測正態(tài)分布--ppnorm函數(shù)、qqline函數(shù)
hist函數(shù)--柱狀圖
2.5連續(xù)變量的區(qū)間估計(jì)
樣本均值的分布服從正態(tài)分布
樣本均值的標(biāo)準(zhǔn)差稱作樣本的標(biāo)準(zhǔn)物
中心極限定理
<img >
回歸
4.1兩連續(xù)變量關(guān)系探索
散點(diǎn)圖?
4.2簡單線性回歸
lm(y~x)
coef(llm)
summary(lm)
模型解釋力度
模型預(yù)測????
predict(lm)
resid(lm)
fitted(lm)???
4.3多元線性回歸
Y=β+βx+βx+
線性回歸假設(shè)
①x和y之間是線性關(guān)系
②擾動(dòng)項(xiàng)正態(tài)分布
③擾動(dòng)項(xiàng)方差一樣的
④擾動(dòng)項(xiàng)不相關(guān)的
⑤x和x之間不能有線性關(guān)系或者線性關(guān)系太強(qiáng)
析因模型
lm(y~x1+x2+x3..., data=dataframe)
coef(lm)
summary(lm)
Multiple R
Adjust R?????????????
模型選擇 變量個(gè)數(shù)的非遞減函數(shù)
模型解釋力度??
4.4多元線性回歸模型的自動(dòng)選擇
向前法、向后法、逐步法(向前向后法)
step函數(shù) direction="forward | backward | both"?
