t檢驗

一、t檢驗適用場景

  • 依據(jù)中心極限定理,當樣本量n足夠大時,無論總體分布形態(tài)如何,樣本均值\overline{\text{x}}都服從正態(tài)分布N(μ,δ2/n)。其中,μ為總體的均值,δ為總體的標準差,n為樣本量。此時,統(tǒng)計量\frac {(\overline{\text{x}}-μ)} {δ/\sqrt{n}}服從標準正態(tài)分布。如果總體的標準差δ不知道,可以利用樣本的標準差S代替,因為樣本數(shù)量較大時,總體的標準差和樣本的標準差近似。
  • 而當樣本數(shù)量較少時,總體的標準差和樣本的標準差相差較大,此時,中心極限定理不在適用。而統(tǒng)計學(xué)家發(fā)現(xiàn),在總體服從正態(tài)分布的情況下,統(tǒng)計量\frac {(\overline{\text{x}}-μ)} {S/\sqrt{n}}服從t分布。t分布與標準正態(tài)分布如下圖所示,當樣本數(shù)量n較大時,t分布接近標準正態(tài)分布;而當樣本數(shù)量n較少時,相比與標準正態(tài)分布,t分布兩側(cè)尾部面積增加。
  • 因此,t檢驗適用于樣本量較小時的檢驗。且樣本量n通過兩種方式影響p值。
    1)n增加時,由于分母減小,t檢驗統(tǒng)計量趨向增加。
    2)n增加時,t分布兩側(cè)尾部面積減小,同樣的t值對應(yīng)的p值會減小
    不同自由度的t分布與標準正態(tài)分布

二、t檢驗的三種類型

  • 單樣本t檢驗
    用于檢驗樣本均值與某一個標準值μ0的差別。
  • 成對樣本t檢驗
    用于檢驗一組樣品在某種試驗條件前后樣本均值是否有差別。比如對一組老鼠施加某種藥劑后,生理指標是否有變化。成對樣本t檢驗可以轉(zhuǎn)換為單樣本t檢驗:將樣本中每個對象施加條件前后的數(shù)據(jù)相減,作為一個樣本數(shù)據(jù),從而檢驗新的樣本數(shù)據(jù)均值是否為0。
  • 獨立樣本t檢驗
    用于檢驗兩組獨立樣本,均值是否有差別。這兩組樣本的數(shù)量可能不同。
    依據(jù)兩組樣本的均值是否相等,可以分為方差相等的獨立樣本t檢驗方差不等的獨立樣本t檢驗。判斷兩個樣本方差是否相等,可以利用Levene 氏檢驗,這個檢驗原假設(shè)時兩個樣本方差相等,很多統(tǒng)計學(xué)軟件(如spss)會給出這個檢驗的p值,如果p值小于0.05,可以拒絕原假設(shè),認為方差不等。

三、t檢驗的注意事項

  • 1)t檢驗只能檢驗最多兩組樣本的均值的差別。(超過兩組,需要用方差分析)
  • 2)由于是檢驗均值的差別,因此,t檢驗適用于離散型變量的數(shù)據(jù)檢驗,只能用于連續(xù)性變量的數(shù)據(jù)檢驗。
  • 3)在樣本量較小時,t檢驗不能用于總體不服從正態(tài)分布的假設(shè)檢驗。
  • 4)顯著性的差異不等同于差異的顯著性。
    例如,目標是比較兩組樣本均值是否有差別。如果分別利用兩次獨立樣本t檢驗比較各組樣本是否與標準值有差別,發(fā)現(xiàn)一組顯著,另一組不顯著,則不能說明兩組樣本均值差異一定有顯著性。必須使用直接服從目標檢驗的統(tǒng)計量進行假設(shè)檢驗(這里必須使用獨立樣本t檢驗方法)。
  • 5)樣本組內(nèi)數(shù)據(jù)點之間必須是獨立的。
    如果不獨立,那么假設(shè)檢驗的結(jié)果是更傾向于顯著性結(jié)果,從而更容易犯第一類錯誤。
    解決樣本不獨立的問題,可以對嵌套結(jié)構(gòu)的數(shù)據(jù),每一層數(shù)據(jù)進行數(shù)據(jù)平均,作為一個樣本點;也可以使用多層模型( multilevel models,又稱分層模型 hierarchical models )。這是一類專門為具有嵌套關(guān)系的數(shù)據(jù)發(fā)展出來的統(tǒng)計學(xué)方法,能夠把數(shù)據(jù)收集過程中的不同層次、不同單元考慮進來,而不需要提前取平均,避免了前一種方法損失效能的問題。

四、多大樣本算是大樣本及數(shù)據(jù)正態(tài)性的檢驗

t檢驗正態(tài)性的要求時針對抽樣分布而言的。依據(jù)中心極限定理,大樣本下,抽樣分布一定是正態(tài)分布,無論總體是否正態(tài)分布。但多大樣本才算大樣本?這取決于總體與正態(tài)分布相似的程度,總體越趨近正態(tài)分布的形態(tài),抽樣分布隨著樣本量的增加趨近正態(tài)分布的速度就越快。研究表明,大多數(shù)抽樣分布在樣本量大于15時,已經(jīng)比較少的趨近正態(tài)分布了,這也是一些教科書上會說樣本量大于15時,可以使用t檢驗了
如果樣本量比較少,此時我們需要對數(shù)據(jù)進行正態(tài)性的檢驗,主要方法有以下三種:

  • 頻率直方圖
    觀察樣本的頻率直方圖是否符合正態(tài)分布。
  • Q-Q圖
    q-q圖是比較樣本的n分位數(shù)與正態(tài)分布的n分位數(shù)是否呈線性關(guān)系,如果qq圖為一條直線,表明樣本服從正態(tài)分布。此外,q-q圖可以比較樣本是否服從某種已知分布,或者兩組樣本是否來自同一分布。
  • 夏皮羅-威爾克檢驗(Shapiro-Wilk test)和科爾莫戈羅夫-斯米爾諾夫檢驗(Kolmogorov-Smirnov test)。
    這些檢驗的原假設(shè)是數(shù)據(jù)符合正態(tài)分布,當 p 值足夠小時拒絕原假設(shè),認為數(shù)據(jù)不符合正態(tài)分布。使用這些檢驗的時候要注意,當樣本足夠大時,只要數(shù)據(jù)稍有一點偏離正態(tài)分布,p 值就總能小于 0.05,因而檢驗的結(jié)果總是傾向于顯示數(shù)據(jù)為非正態(tài)分布。也就是說,如果我們的樣本足夠大,即使夏皮羅-威爾克檢驗或科爾莫戈羅夫-斯米爾諾夫檢驗給出小于 0.05 的 p 值,數(shù)據(jù)來自的總體仍可能是服從正態(tài)分布的。

五、數(shù)據(jù)非正態(tài)的處理方法

  • 1)數(shù)據(jù)變換
    對于右偏的分布,可以利用遞增速率減緩的函數(shù)來進行數(shù)據(jù)變換,比如log(x),\sqrt{x}等。對于左偏的分布,可以利用遞增速率增加的函數(shù)來進行數(shù)據(jù)變換,比如ex,x3等。
    (1)Box-Cox變換
    該變換是依據(jù)數(shù)據(jù)自動尋找最佳變換函數(shù)的方法,變換公式如下:
    y(\lambda )=\left\{\begin{matrix} \frac{y_{i}^{\lambda }-1}{\lambda },如果\lambda \neq 0;\\ ln(y_{i}),如果\lambda =0\end{matrix}\right.
    由公式可知,需要確定最佳的λ。對于每個數(shù)據(jù),經(jīng)過上述公式變換后,如果變換后數(shù)據(jù)服從正態(tài)分布,則可以確定出正態(tài)分布的均值和標準差,進而確定每個變換后數(shù)據(jù)的概率密度,然后應(yīng)用極大似然估計方法來求解出λ。
    (2)數(shù)據(jù)變換的局限性
    第1,數(shù)據(jù)變換不能解決所有的非正態(tài)問題,比如對于離散型變量的分布,有多個峰的分布,數(shù)據(jù)變換無法將它們變成正態(tài)分布;第2,數(shù)據(jù)變換后,t檢驗的意義會發(fā)生變換,對于一些復(fù)雜變換,在數(shù)據(jù)解釋方面存在不足。
  • 2)非參數(shù)檢驗

非參數(shù)檢驗適用于數(shù)據(jù)總體不服從正態(tài)分布的情況,包括以下兩種:
單樣本 t 檢驗和成對樣本的 t 檢驗對應(yīng)于威爾科克森符號秩檢驗,以下簡稱符號秩檢驗;
獨立樣本的 t 檢驗對應(yīng)于曼-惠特尼 U 檢驗(也叫做曼-惠特尼秩和檢驗),下面簡稱秩和檢驗。

(1)秩和檢驗的優(yōu)點:
不要求總體服從正態(tài)分布;
離散型定序變量也適用;不受個別樣本極端值的影響。
(2)秩和檢驗的缺點:
相比與t檢驗,統(tǒng)計功效很低;
t檢驗直接比較的是兩個樣本的均值是否一致,有著直觀的解釋,而秩和檢驗比較的是一組數(shù)據(jù)大于另外一組數(shù)據(jù)的概率是不是大于0.5,只有當被比較的兩組數(shù)據(jù)的分布形狀完全一樣而只是差一個平移的情況下,秩和檢驗才能等價于檢驗兩組數(shù)據(jù)的中位數(shù)是否相等。因此,相比于t檢驗,秩和檢驗的解釋更加模糊。

六、t檢驗中效應(yīng)量的估計

  • 1)點估計
    p值大小與效應(yīng)量、樣本量有關(guān),當樣本量很大時,即使很小的效應(yīng)量,p也會達到顯著水平。因此,當t檢驗顯著時,還需要計算效應(yīng)量的大小。
    單樣本t檢驗常用的估計指標是Cohen 氏 d 值:
    d=\frac{\mu -\mu _{0}}{\sigma }
    其中,μ為總體均值,σ為總體標準差,μ0為標準值。總體的參數(shù)可以用樣本參數(shù)代替。
    由于考慮了σ,因此d值可以將來自不同數(shù)據(jù)若干t檢驗的效應(yīng)量放到同一個尺度上進行比較。
    Jacob Cohen 曾經(jīng)提出過一條經(jīng)驗準則,把 d 值為 0.2,0.5 和 0.8 的效應(yīng)分別稱為小、中、大效應(yīng)。這只是粗略的劃分,也沒有考慮到不同學(xué)科之間的差異,因此只能作為一種參考。
    此外,成對樣本t檢驗常用的d值:
    d=\frac{\mu_{x} -\mu _{y}}{\sqrt{\sigma _{x}^{2}+\sigma _{y}^{2}-2\rho _{xy}\sigma_{x}\sigma_{y}}}
    獨立樣本t檢驗的d值:
    d=\frac{\mu_{x} -\mu _{y}}{\sqrt{(\sigma _{x}^{2}+\sigma _{y}^{2})/2}}
  • 2)區(qū)間估計
    在一定置信水平下構(gòu)建效應(yīng)量估計的置信區(qū)間,可以更清晰的得知,效應(yīng)量估計的不確定度和估計誤差。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容