參數(shù)檢驗(yàn)
** U檢驗(yàn)**:
- 前提:在正太分布的樣本均值u0和總體方差已知的情況下,雙側(cè)檢驗(yàn)問(wèn)題檢驗(yàn)總體均值u=u0嗎?
P(|u-u0|>k)=a;拒絕域就是|u-u0|>k,落在拒絕域的概率是a,是顯著性水平。 - 怎么確定k值:引入了U統(tǒng)計(jì)量~N(0,1),計(jì)算,當(dāng)u>ua的概率就是a,當(dāng)a確定之后,ua是確定的,所以k也是確定的。但因?yàn)樯厦嬗薪^對(duì)值,u-u0>k的概率和u-u0<-k的概率是a,那么對(duì)稱(chēng)性可知,一側(cè)的概率是a/2
同理,單側(cè)檢驗(yàn)問(wèn)題u<u0,那么拒絕域就是u-u0>k值,這個(gè)和上面是一樣的,或者u>u0嗎?這個(gè)拒絕域是(小并且小了很多)u-u0<-k。
可以寫(xiě)成更容易計(jì)算的形式:|u|>ua,是拒絕域,拒絕假設(shè)u=u0; - 應(yīng)用: 檢驗(yàn)兩個(gè)正太分布的期望是否有顯著差異;不過(guò)得總體方差已知,這個(gè)實(shí)際中大多方差都是不知道的
單樣本的t檢驗(yàn)
前提:在正太分布的樣本均值已知u0和總體方差未知,檢驗(yàn)總體均值u=u0嗎?
和U檢驗(yàn)類(lèi)似,不過(guò)引入的是T統(tǒng)計(jì)量t(n-1),也是正好借助這個(gè)統(tǒng)計(jì)量中有的u-u0確定k。ta代表的是,t>ta的概率是a,用|t|>t(a/2)來(lái)表示雙側(cè)檢驗(yàn)的拒絕域,用t>ta來(lái)表示單側(cè)u<u0的拒絕域,t<-ta表示單側(cè)u>u0的拒絕域
落在拒絕域:就是拒絕不等式成立,就代表假設(shè)不成立
怎么確定k值:對(duì)于單側(cè)檢驗(yàn)的話,u>u0,拒絕域u-u0<-k,因?yàn)镻((u-u0)/S/sqrt(n)>ta)=a,所以t<-ta,
應(yīng)用:看某個(gè)正態(tài)分布的期望是否為C,或者已知之前的平均值,現(xiàn)在一組實(shí)驗(yàn)看與之前平均值有無(wú)顯著差異。例如:在excel中做單樣本的t檢驗(yàn)怎么做?
- Paste_Image.png
** 雙樣本的t檢驗(yàn)**
前提:兩組正太分布,相互獨(dú)立??傮w方差均未知。兩組數(shù)據(jù)的均值是否相同?
確定拒絕域:假設(shè)u1-u2=0,拒絕域|u|>u(a/2).假設(shè)u1-u2>0,拒絕域?yàn)?u<-ua,假設(shè)u1-u2<0,拒絕域?yàn)閡>ua
-
應(yīng)用:看兩組數(shù)的平均值是否存在顯著差異。例如:可以在excel中“數(shù)據(jù)分析”中直接使用該工具。在excel中a指的是雙尾檢驗(yàn)時(shí)的a,單尾檢驗(yàn)就變成2*a
Paste_Image.png 為什么不直接比較兩組數(shù)據(jù)的均值?,因?yàn)閱螁问怯?jì)算兩組數(shù)據(jù)平均值,這樣的結(jié)論還不能令人信服,因?yàn)檫@個(gè)差距可能是因?yàn)槌闃拥碾S機(jī)性而來(lái),不一定反映本質(zhì),所以要考慮用假設(shè)檢驗(yàn)來(lái)處理這個(gè)問(wèn)題。
-
excel中還會(huì)多兩個(gè)t-檢驗(yàn),如下圖:Paste_Image.png
大樣本
在方差未知的情況下,可以用樣本方差代替;T分布可以近似看成U分布。因?yàn)門(mén)的極限情況就是正太
** 兩個(gè)樣本方差檢驗(yàn)(F檢驗(yàn))**
- 前提: 總體期望未知,樣本方差已知,用樣本方差代替總體方差,看S1和S2的比值。近似F(n1-1,n2-1).
- 拒絕域:假設(shè)o1=o2,則拒絕域是s1/s2>k1或者s1/s2<k2,因?yàn)镕分布是不對(duì)稱(chēng)分布,因此k1=Fa,k2=F(1-a),雙側(cè)檢驗(yàn),所以顯著性水平a也要除以2.
-
應(yīng)用:在兩組樣本t檢驗(yàn)之前,要先看兩個(gè)方差是否有顯著性差異,例如,在excel中如下:Paste_Image.png
** 單個(gè)樣本的方差檢驗(yàn)(卡方檢驗(yàn))**
- 前提:正太分布的樣本,總體均值未知,樣本方差S已知
- 確定拒絕域:引入了X2統(tǒng)計(jì)量,S和o2的比值,比值小于k1或者大于k2.
- 應(yīng)用:用來(lái)看觀察值與理論值的偏差
分布檢驗(yàn)
- 分布檢驗(yàn)的假設(shè)
H0:X的分布函數(shù)為F(x);將該假設(shè)轉(zhuǎn)化為H0總體值在區(qū)間Ii內(nèi)的概率為pi - 正太分布檢驗(yàn)
先計(jì)算這個(gè)區(qū)間的理論概率p(Ua-U(a-1)),頻數(shù)就是np,在一組樣本中我們知道每個(gè)區(qū)間內(nèi)數(shù)據(jù)的頻數(shù)a,用卡方檢驗(yàn)如果X(計(jì)算出來(lái))>Xa(查表得到),則可以認(rèn)為服從正太分布。X計(jì)算公式特別像一個(gè)誤差計(jì)算 - 應(yīng)用:在參數(shù)估計(jì)和假設(shè)檢驗(yàn)中往往是假定某組數(shù)服從正太分布,但實(shí)際中我們往往不知道某組數(shù)的分布情況,因此必須先根據(jù)樣本對(duì)總體分布進(jìn)行檢驗(yàn)。
例如在SPSS里面有P-P圖(正太概率圖)、QQ圖,還有KS檢驗(yàn)
輔助檢驗(yàn)方法:1)觀察正態(tài)概率圖,如果數(shù)據(jù)來(lái)自正態(tài)分布,圖形的散點(diǎn)應(yīng)該呈現(xiàn)一條直線。2)繪制數(shù)據(jù)的條形圖,如果數(shù)據(jù)來(lái)自正態(tài)分布,條形圖呈現(xiàn)“鐘形”分布。3)觀察描述性統(tǒng)計(jì)量中偏度系數(shù)(Skewness)g1和峰度系數(shù)(Kurtosis)g2,如果數(shù)據(jù)來(lái)自正態(tài)分布,則兩者都應(yīng)該是0(適合大樣本,僅當(dāng)N>30時(shí)才有效)。
異常值檢驗(yàn)
- 格布拉斯準(zhǔn)則(G檢驗(yàn)):總體要服從正太分布,樣本量小,假設(shè)檢驗(yàn),G=(Xavg-Xmin)/標(biāo)準(zhǔn)差,再和表中對(duì)比。只能檢測(cè)出來(lái)某個(gè)值是否為異常值,如果是的話,還要一直循環(huán)。
適用于小樣本;但局限是,當(dāng)同側(cè)異常值較為接近時(shí),效果不好。 - 拉依達(dá)準(zhǔn)則:總體要服從正太分布,且樣本量大(n必須大于10)。u+3o和u-3o的概率很小。這樣可以得到一個(gè)最大最小值的臨界點(diǎn)
-
箱圖:總體不用服從正太分布。異常值區(qū)間(1/4相位點(diǎn)-1.5*(3/4-1/4相位點(diǎn)值),3/4相位點(diǎn)+1.5(3/4-1/4相位點(diǎn)值)),例如在excel中
Paste_Image.png




