CDA level I考試大綱 Part1 數(shù)據(jù)分析概念與統(tǒng)計學(xué)基礎(chǔ) 占考試比例的30%; 共分5個知識方向,考試占比分布如下:數(shù)據(jù)分析概念,方法論 流程 5% 描述性統(tǒng)計分析 12% 推斷性統(tǒng)計分析8% 方差分析2% 一元線性回歸分析3%;
Part 1的部分前面兩個文章已經(jīng)記錄了 25%的考試分布,本次主要記錄方差分析和一元線性回歸分析,合計考試分布占比5%;
方差分析:
大綱要求熟知:單因素方差分析的基本步驟,總離差平方和(SST)含義和計算,組間離差平方和(SSA)得含義和計算 組內(nèi)離差平方和 SSE的含義及計算,單因素方差分析的原假設(shè)
一,方差分析的相關(guān)概念原理:
1,單因素方差分析:將所得數(shù)據(jù)按某些項目分類后,分析各組數(shù)據(jù)間有無差異的方法。本質(zhì)是檢驗多個總體均值是否想等,計算過程可理解為 變異分解過程。
2,方差分析的基本原理:方差的可加性原則。
二、單因素方差分析的基本步驟,總離差平方和(SST)含義和計算,組間離差平方和(SSA)得含義和計算 組內(nèi)離差平方和 SSE的含義及計算
1,方差分析的基本假設(shè):
??? 每個總體都應(yīng)服從正態(tài)分布
??? 各個總體的方差必須相同
??? 觀察值是獨立的
2,單因素方差分析的基本步驟
提出假設(shè):H0:μ1=μ2=μ3,各個水平均值相等,即自變量對因變量沒有顯著影響
構(gòu)造檢驗統(tǒng)計量(F統(tǒng)計量)
統(tǒng)計決策(根據(jù)P值)
3,計算F統(tǒng)計量的過程
a,變異分解
總體平方和???

組間平方和

組內(nèi)平方和

SST = SSA + SSE
b,計算均方
組間均方 MAS=SSA/(k-1)? SSA的自由度為K-1
組內(nèi)均方 MSE=SSE/(n-k)SSE的自由度為n-k
c,計算檢驗統(tǒng)計量F
?F=MSA/MSE ~F(k-1,n-k)
d,統(tǒng)計決策
將F 同顯著性水平臨界值比較.
F>Fα p<α 拒絕原假設(shè)
F<Fα p>α不拒絕元假設(shè) 有顯著性影響。
三,單因素方差的SPSS實現(xiàn)(考試中基本沒有此處)
操作流程:分析-比較均值-單因素
界面說明:因變量列表:選入連續(xù)變量,可多選,但結(jié)果是對因變量逐一進行檢驗,
?????????????????? 因子選入 多分類的變量,即 自變量
對比:
多項式:將組間方差平方和分解為不同形式的趨勢成分
系數(shù):用于因素不同類別間的檢驗
兩兩比較:
方差齊性:
LSD:實際上是t檢驗的變形,只是在變異和自由度的計算上利用了整體樣本的信息,仍然存在放大1類錯誤的問題
Scheffe:當(dāng)各組人數(shù)不等,或進行較為復(fù)雜的比較時,比較穩(wěn)妥
SNK:運用最廣泛的一種兩兩比較。它采用student range分布進行所有各組均值間的比較
方差不齊:
建議games-howell稍好一點,但最好用非參的方法
簡單線性回歸分析
大綱要求熟知:相關(guān)關(guān)系的概念和特點,相關(guān)關(guān)系與函數(shù)關(guān)系的區(qū)別與聯(lián)系。相關(guān)關(guān)系的種類,相關(guān)系數(shù)的意義,以及利用相關(guān)系數(shù)的具體數(shù)值對現(xiàn)象相關(guān)等級的劃分,回歸分析的概念,主要內(nèi)容和特點,建立一元線性回歸方程條件,應(yīng)用回歸分析應(yīng)注意的問題,估計標(biāo)準誤差的意義及計算
一。線性相關(guān)的概念
由于各類不確定因素,數(shù)據(jù)點基本落在直線周圍,我們稱為具有線性相關(guān)。
正線性相關(guān)
負線性相關(guān)
完全線性相關(guān)
非線性相關(guān)
如果相關(guān)系數(shù)是根據(jù)變量的樣本數(shù)據(jù)計算的,即為了推斷總體,那么則稱為樣本相關(guān)系數(shù)。即為r,(Pearson相關(guān)系數(shù))
r的取值范圍為[-1,1],絕對值越接近1則相關(guān)性越強,且有以下情況成立:
r=1,完全正相關(guān)
r=-1,完全負相關(guān)
r=0,不存在線性相關(guān)關(guān)系
-1<r<0,負相關(guān)
0<r<1,正相關(guān)
按照習(xí)慣對相關(guān)強度進行了分級
r絕對值大于等于0.8,高度相關(guān)
r絕對值介于0.5-0.8之間,中度相關(guān)(含0.5)
r絕對值在0.3-0.5之間,低度相關(guān)(含0.3)
r絕對值小于0.3,可視為不相關(guān)
我們運用t檢驗來驗證兩個變量是否存在線性相關(guān)關(guān)系
原假設(shè),H0,ρ=0,兩變量間無直線相關(guān)關(guān)系
檢驗統(tǒng)計量t?
散點圖適用條件:
數(shù)據(jù)間相互獨立,變量為連續(xù)變量,兩邊兩間關(guān)系是線性的。
二、簡單線性回歸的概念條件,內(nèi)容,特點。
回歸分析可以解決的問題:探索影響因變量的可能因素,利用回歸模型進行預(yù)測
相關(guān)與回歸間的關(guān)系:相關(guān)分析側(cè)重反應(yīng)散點的疏密程度,回歸側(cè)重反應(yīng)散點的趨勢程度
線性回歸基本過程:
最小二乘法:希望得到一個一元線性回歸方程,使得因變量樣本值,到估計值之間的2次距離總和最小,
三、一元線性回歸的評價與檢驗
第一步:總平方和分解
第二步,計算判定系數(shù) r方
r^2=ssr/sst 即平方和占誤差平方和的比例。
第三步,殘差標(biāo)準誤差
第四步:線性關(guān)系檢驗
提出假設(shè) H0:β1=0,線性關(guān)系不顯著
設(shè)定臨界值:確定顯著性水平α,并根據(jù)自由度,找出臨界值Fα
決策 若F>Fα,P<α? 拒絕H0,否則不拒絕H0
第五步 回歸系數(shù)檢驗
提出假設(shè) H0:β1=0,線性關(guān)系不顯著
設(shè)定臨界值 設(shè)定顯著性水平α 根據(jù)自由度n-2,確定臨界值tα/2
決策 t的絕對值>tα/2,即p<α,拒絕H0,否則不拒絕H0
四,線性回歸模型的假設(shè)
線性關(guān)系
隨機抽樣
期望為0
同方差
正態(tài)性