數(shù)據(jù)分析學(xué)習(xí)筆記

R語言介紹

統(tǒng)計(jì)介紹

2.1變量度量類型

名義型變量

等級型變量

連續(xù)型變量

等級變量差值無意義,連續(xù)變量差值有意義

2.2抽樣與統(tǒng)計(jì)推斷

從樣本的情況推斷總體的情況--統(tǒng)計(jì)推斷

統(tǒng)計(jì)推斷:①我們拿到的是樣本的數(shù)據(jù)

2.3連續(xù)變量的描述

平均①中心水平②代表性③哪個(gè)統(tǒng)計(jì)量最恰當(dāng)④方差、標(biāo)準(zhǔn)差、極差、四分衛(wèi)差(內(nèi)分位差)

峰度、偏度

summary函數(shù)

tapply函數(shù)

2.4連續(xù)變量的圖形展示

正態(tài)分布左右對稱,均值=中位數(shù)=眾數(shù)

盒須圖--boxplot函數(shù)

PP圖、QQ圖用來檢測正態(tài)分布--ppnorm函數(shù)、qqline函數(shù)

hist函數(shù)--柱狀圖

2.5連續(xù)變量的區(qū)間估計(jì)

樣本均值的分布服從正態(tài)分布

樣本均值的標(biāo)準(zhǔn)差稱作樣本的標(biāo)準(zhǔn)物

中心極限定理

<img >

回歸

4.1兩連續(xù)變量關(guān)系探索

散點(diǎn)圖?

4.2簡單線性回歸

lm(y~x)

coef(llm)

summary(lm)

模型解釋力度

模型預(yù)測????

predict(lm)

resid(lm)

fitted(lm)???

4.3多元線性回歸

Y=β+βx+βx+

線性回歸假設(shè)

①x和y之間是線性關(guān)系

②擾動(dòng)項(xiàng)正態(tài)分布

③擾動(dòng)項(xiàng)方差一樣的

④擾動(dòng)項(xiàng)不相關(guān)的

⑤x和x之間不能有線性關(guān)系或者線性關(guān)系太強(qiáng)

析因模型

lm(y~x1+x2+x3..., data=dataframe)

coef(lm)

summary(lm)

Multiple R

Adjust R?????????????

模型選擇 變量個(gè)數(shù)的非遞減函數(shù)

模型解釋力度??

4.4多元線性回歸模型的自動(dòng)選擇

向前法、向后法、逐步法(向前向后法)

step函數(shù) direction="forward | backward | both"?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容