大數(shù)據(jù)統(tǒng)計基礎之F分布及其應用

大數(shù)據(jù)統(tǒng)計基礎之F分布及其應用

1. F分布

研究A、B、C三種不同學校學生的閱讀理解成績找到一種解決的辦法,有人可能會以為,只要多次使用Z檢驗或t檢驗,比較成對比較學校(或條件)即可。但是我們不會這樣來處理。因為Z檢驗或t檢驗有其局限性。

1.1. Z檢驗和t檢驗的局限性

當研究中出現(xiàn)兩個以上的平均數(shù)時,用Z檢驗和t檢驗會有以下一些不足。

  • 1.比較的組合次數(shù)增多

如上所述,若把三所學校成對比較,則需對A校與B校,B校與C校,C校與A校做檢驗,這時我們所做的檢驗是三次而不是一次。如果一次研究10個學校,其檢驗數(shù)就會達到45個之多。事實上我們只需要一個可以讓我們同時處理兩種以上條件的單獨檢驗。

  • 2.降低可靠程度

因為對數(shù)據(jù)做得Z檢驗或t檢驗越多,我們更容易犯Ⅰ型錯誤。在一個檢驗中,α=0.05,意味著有0.05的可能性犯Ⅰ型錯誤,即有1-α=0.95的概率不犯Ⅰ型錯誤。如果我們做兩次檢驗,每次都為0.05的顯著性水平,那么不犯Ⅰ型錯誤的概率就變?yōu)?.95×0.95=0.90。此時犯Ⅰ型錯誤的概率則為1-0.90=0.10,即至少犯一次Ⅰ型錯誤的概率翻了一倍。若做10次檢驗的話,至少犯一次Ⅰ型錯誤的概率將上升到0.40(1-0.952),而10次檢驗結論中都正確的概率只有60%。所以說采用Z檢驗或t檢驗隨著均數(shù)個數(shù)的增加,其組合次數(shù)增多,從而降低了統(tǒng)計推論可靠性的概率,增大了犯錯誤的概率。

若想要若干檢驗的總顯著性水平仍為0.05的話,一種做法就是為每一獨立檢驗設置更為保守的顯著性水平。譬如,若進行5次檢驗,為了使總的犯Ⅰ型錯誤的風險仍為0.05,則每一個獨立檢驗的顯著性水平需設為p=0.01(因為1-0.99×0.99×0.99×0.99×0.99=0.05)。另一種可替代的方法就是設計一種能使總顯著性水平始終0.05的單一檢驗,即方差分析。

  • 3.缺少綜合或整體信息

兩個以上的平均數(shù)檢驗中若仍采用Z檢驗或t檢驗都只提供了兩個組所提供的信息,而忽略了其余的綜合信息。然而在許多情況下這些被忽視的信息可能對檢驗結果產生更大的影響力。同時在十次檢驗之后所得到只是零散的信息,并非從總體來分析幾種不同條件的效果,也難以獲得幾種不同條件的直接答案。

1.2. 方差分析的含義與假設

所謂方差分析(analysis of variance)就是對多個平均數(shù)進行比較的一種統(tǒng)計方法,又稱變異數(shù)分析,即ANOVA。它與實驗設計緊密相聯(lián),實驗設計不同,方差分析的方法也有所不同。

以下三條假設在進行方差分析時是非常關鍵的。否則易產生錯誤的統(tǒng)計結論。

  • 1.總體分布的正態(tài)性

方差分析與Z檢驗或t檢驗一樣,也要求樣本必須來自正態(tài)分布的總體。在心理與教育研究領域,大多數(shù)變量是可以假設其總體服從正態(tài)分布的。因此在一般進行方差分析時并不要求檢驗總體的正態(tài)性。

但是當我們有確實的證據(jù)證明總體分布不正態(tài)時,就需要對數(shù)據(jù)進行一些處理,譬如采用某種方式進行數(shù)據(jù)的轉換,轉換后的數(shù)據(jù)分布呈正態(tài)分布后再作方法分析,或者可進行非參數(shù)的方差分析。

  • 2.各個實驗組的方差齊性

方差分析要求各總體的方差或標準差相同。如若總體方差不一致,那么方差分析得出差異顯著結論時就無法進行很好的回因分析。譬如,某校在實驗班和普通班進行教學方法的實驗,以新方法施教于實驗班,以傳統(tǒng)方法施教于普通班。實驗結束后發(fā)現(xiàn)兩班成績差異非常顯著,然而這種差異究竟是教法不同造成的,還是兩班學生原有學習水平不同引起的,我們無法回答這個問題。因此,方差分析前需對各樣本的方差做一致性檢驗,稱方差齊性檢驗,只有滿足了方差齊性的條件才可做方差分析。

  • 3.變異具有加可性

變異具有可加性是方差分析中的又一重要假設。眾所周知,影響事物的因素是多種多樣的,方差分析是將事物的總變異分解為各個不同變異來源,分解后的各部分變異是相互獨立,相加后又構成總變異。

1.3. 方差分析的過程

方差分析的過程有廣義與狹義之分。廣義的方差分析包括了方差的齊性檢驗,F(xiàn)檢驗和多重比較(逐對平均數(shù)的比較)。狹義的方差分析僅指F檢驗,其內容有建立假設、計算檢驗值(變異的平方和、自由度、均方和F值)、統(tǒng)計決策和制作方差分析表。

2. F分布的應用——方差的同質性檢驗

2.1. 方差分析的基本原理

假設從一個學習方法實驗中抽取了9名被試的學習成績,如表1所示。隨后又抽取了9名被試的學習成績,如表2所示。你能從這些數(shù)據(jù)發(fā)現(xiàn)什么問題嗎?

表1:第1次抽取結果:

方法 學生實驗成績 學生實驗成績 學生實驗成績 $\overline X $ ${\overline X _{\rm{t}}}$
A 6 5 7 6
B 11 9 10 10 7
C 5 4 6 5

表2:第2次抽取結果:

方法 學生實驗成績 學生實驗成績 學生實驗成績 $\overline X $ ${\overline X _{\rm{t}}}$
A 1 7 4 4
B 6 2 8 6 5
C 3 6 5 6

首先,從以上數(shù)據(jù)可看出,不僅組與組之間存在不同,而且同一組內部也存在著不同。組與組之間的差異稱組間變異(variation between classes),反映在各組的平均數(shù)不同。同一組內部被試(個體)之間的差異稱組內變異(variation within class),反映在每一個人的分數(shù)不同。

其次,從組間變異看,表1的組間變異大于表2。如表1中A、B、C的組平均數(shù)與總平均數(shù)分別相差1、4、2分,表2中的三組平均數(shù)總平均差1分。

再次,從看組內變異看(各組原始分與組平均數(shù)比較),表1各組原始分與組平均基本差1分,表2各組原始分與組平均數(shù)最大有4分之差。

綜上所述,表1組間變異較大而組內變異較小,表2組間變異較小而組內變異較大??梢?,組間變異的大小與組內變異的大小并非正比關系。這一現(xiàn)象表明,如果組間變異相對較大,而組內變異相對較小,則各組平均數(shù)的變異越明顯,即若組間變異與組內變異的比率越大,各組平均數(shù)的差異越大。因此,通過組間變異和組內變異比率大小來推論幾個相應平均數(shù)差異顯著性的思想就是方差分析的邏輯依據(jù)或基本原理。所以說,方差分析是將實驗中的總變異分解為組間變異和組內變異,并通過組間變異和組內變異比率的比較來確定影響實驗結果因素的數(shù)學方法,其實質是以方差來表示變異的程度。

在方差分析中,引起組間變異的主要原因是實驗者所施加的實驗條件和隨機誤差,這種隨機誤差是由于一些偶然因素引起的。引起組內變異的主要原因則是被試間的個體差異和實驗誤差等,也屬隨機因素的影響,因此也可看作是一種隨機誤差。

總變異的分解:
總變異 = 組間變異+組內變異
組間變異 = 實驗條件 + 隨機誤差
組內變異 = 個體差異 + 實驗誤差 。組內誤差都是隨機誤差。

如果組間與組內變異均為隨機誤差時,二者的比率為1,即實驗因素的影響較小,由此推論總變異不存在差異。當二者的比率較大時,則實驗因素產生影響的可能性增大。

2.2. 方差分析的基本過程

  • 1.各變異的內容與表達

根據(jù)各變異的關系及方差分析可加性的特點,有:

總變異 = 組間變異 + 組內變異

變異(Variance,用V表示)即方差(S2),又稱均方差或均方(Mean Square,MS),其公式為:

$$ {S^2}({\rm{or}}V,orMS) = \frac{{\sum {{(X - \overline X )}^2}}}{{n - 1}} = \frac{{SS}}{{df}} $$

其中,分子為離均差平方和,簡稱平方和,記為SS;分母為自由度,記為 ,所以總變異及各變異原因記為:

$$ M{S_t} = M{S_b} + M{S_w} $$

總變異的數(shù)學意義是每一原始分數(shù)(X)與總平均數(shù)( $\overline X $)的離差,記為 $(X - \overline X )^2 $

組間變異的數(shù)學意義是每一組的平均數(shù)($\overline {{X_{\rm{i}}}}$)與總平均數(shù)的離差,記為 $(\overline {{X_{\rm{i}}}} - {\overline X _{\rm{i}}})$

組內變異的數(shù)學意義是每一組內部的原始分數(shù)與其組平均數(shù)($\overline {{X_{\rm{i}}}}$)的離差,記為$(X - {\overline X _{\rm{i}}})$

方差分析是一種參數(shù)檢驗方法,因此在進行均數(shù)差異的檢驗時必須考慮作為參數(shù)檢驗應具備的條件,即應考慮不同總體的變異水平——個體差異是否一致。只有在待檢驗的幾個總體的方差一致的前提下,才能根據(jù)差異檢驗的結果作出適當?shù)慕Y論,否則對差異原因就難以歸因,譬如究竟是實驗條件不同產生的影響,還是個體之間本身的差異造成的影響。

對于樣本所來自的各個總體的方差是否一致的問題可以從兩方面著手。一是如果已積累了大量的經驗,則可預先做出方差一致的判斷,進行差異檢驗時可以假定幾個總體的方差相等。二是如果根據(jù)經驗不足以判斷方差是否一致,可以根據(jù)研究所搜集的資料樣本方差進行統(tǒng)計分析,檢驗方差相等的假設是否成立。因此方差齊性檢驗就是檢驗各總體方差是否一致的統(tǒng)計方法。

方差齊性檢驗(test of homogeneity of variance)的虛無假設是假設各個總體的方差相等(即無顯著差異)或是各個樣本方差來自相同的總體,其表達方式記為:

$$Ho:{\sigma _1}^2 = {\sigma _2}^2 = {\sigma _3}^2...$$

研究假設雖然不能保證所有的方差存在顯著差異,但可以假設至少有兩總體的方差存在顯著差異,只要有兩種總體方差或樣本方差不一致,虛無假設各總體方差相等就不成立了。

方差齊性檢驗的方法

檢驗多個總體方差一致性的方法很多,但是最常是哈特萊(Hartley)檢驗法。哈特萊檢驗法是檢驗
$$Ho:{\sigma 1}^2 = {\sigma 2}^2 = {\sigma 3}^2...$$
這一假設的較好方法,它借助于F最大值來檢驗。所謂F最大值就是把一系列方差中的最大方差與最小方差進行比較的方法,即
$$ {F
{\max }} = \frac{{{S^2}
{(n - 1)max}}}{{{S^2}
{(n - 1)min}}} $$

在虛無假設 $$Ho:{\sigma _1}^2 = {\sigma _2}^2 = {\sigma 3}^2...$$ 時,最大值分布的臨界值已由哈特萊計算出來形成了F最大值理論分布表,見附表。查Fmax時,需根據(jù)方差數(shù)目k及方差的自由進行。其中,
$df = {n
{\max }} - 1$ 。

對例1的數(shù)據(jù)進行方差齊性檢驗的過程與方法如下:

1.建立假設

$Ho:{\sigma _1}^2 = {\sigma _2}^2 = {\sigma _3}^2$,即三個總體的個體差異無顯著差異
Ha:至少有兩個總體的方差存在顯著差異

2.計算統(tǒng)計量

2.1求各樣本的方差
$${S^2} = \frac{{\sum {{X^2}} - {{(\sum X )}^2}/n}}{{n - 1}}$$
$$\begin{array}{l}
{S_A}^2 = 2\
{S_B}^2 = 0.8\
{S_C}^2 = 2.8
\end{array}$$

學習方法 成績(x1) x2 x3 x4 x5 x6 $\sum X$ ${\sum X ^2}$
A 5 6 7 5 3 4 30 160
B 11 10 9 11 9 10 60 604
C 14 15 17 13 17 14 90 1364
$\sum {}$ 180 2128
$\sum {\sum X }$ ${\sum {\sum X } ^2}$

2.2求F最大值
$${F_{max}} = \frac{{2.80}}{{0.8}} = 3.5$$

2.3比較與決策

當組數(shù)k=3,自由度df=6-1=5時,${F_{max0.05}} = 10.8$。因為${F_{max}} = 3.5 < {F_{\max 0.05}} = 10.8$,P>0.05,差異不顯著,接受虛無假設,拒絕研究假設,說明三個總體的方差一致。

3. F分布的應用——方差分析

3.1. 單因素方差分析的意義

方差分析是在實驗研究中產生的,由于一次實驗涉及的因素多少不一而分為單因素設計和多因素設計。所謂單因素設計(single factor design)就是從影響實驗結果的眾多因素中選取一個作為自變量,其他因素都加以控制的設計類型。分析單因素設計實驗結果的方法稱單因素方差分析,換言之,實驗所考察的自變量只有一個的實驗設計的方差分析。
單因素設計是最簡單、最基本的實驗設計類型,其具體設計形式有完全隨機設計、隨機區(qū)組設計和拉丁方設計,因此相應的方差分析也就有完全隨機設計的方差分析、隨機區(qū)組設計的方差分析和拉丁方設計的方差分析。本章只介紹前兩種形式。

3.2. 完全隨機設計的方差分析

3.2.1. 完全隨機設計

如例1,研究者欲研究學生在不同學習方法下的學習效果,隨機抽取各方面條件基本一致的學生18名,并隨機地將他們分為三組分別用一種學習方法學習。經過一段時間后,對不同學習方法的效果進行統(tǒng)一測驗。這種實驗設計即為完全隨機設計(completely randomized design)。完全隨機實驗設計就是隨機地抽取研究對象并隨機將其分配至各種實驗條件進行實驗的設計形式。換言之,就是每一隨機組分別接受一種實驗處理的設計。

在完全隨機設計中由于被試是隨機抽取的,并隨機分組,因此一般認為所分的組是“等組”的。如果實驗結果出現(xiàn)組與組之間差異顯著,就可以認為實驗處理的效應顯著,亦即各種學習方法的學習效果確有不同。正因為抽樣的隨機性,各組之間是相互獨立的,所以這類設計也稱為獨立組設計或被試間設計。

3.2.2. 完全隨機設計的方差分析

1.樣本容量相等的方差分析

各個樣本容量相等時意味著對于每一種實驗處理它們的被重復次數(shù)相同,如表3,每一種學習方法均重復了6次。其方差分析過程與上一節(jié)所介紹的方差分析基本方法完全一致。

2.樣本容量不相等的方差分析

在完全隨機的方差分析中,究者常常使各實驗處理組的被試數(shù)目相等。這本不需要,但卻能使計算稍微容易些。像獨立樣本t檢驗一樣,F(xiàn)檢驗也允許樣本容量不等。

4. 小結

方差分析是比較兩個以上平均差異顯著性的方法。其邏輯思想是將總變異分解成組間(或處理間)變異和組內(或誤差)變異,通過比較組間與組內變異率的大小來確定均數(shù)差異是來自實驗因素或處理,還是源自隨機誤差。引起組間的變異原因主要實驗施加的影響因素(或條件)和隨機誤差,引起組內變異的原因則為隨機誤差(其中含個體變異和實驗變異)。根據(jù)一次實驗因素的個數(shù)分為單因素實驗和多因素實驗。單因素實驗方差分析主要有完全隨機設計的方差分析和完全隨機區(qū)組設計的方差分析。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容