
隨處可見的Chi Square
1、女性心肌梗死與吸煙關(guān)系的病例對照研究
某研究者實(shí)施了一項(xiàng)關(guān)于女性心肌梗死與吸煙關(guān)系的病例對照研究,研究者調(diào)查了240 名心肌梗死患者和480 名非心肌梗死患者,并調(diào)查她們的吸煙情況(對吸煙有明確定義)。最終調(diào)查的結(jié)果如下表所示,研究者想了解心肌梗死患者與非心肌梗死患者的吸煙比例是否有差異,或者說吸煙與心肌梗死是否有關(guān)聯(lián)。

對于上表的研究目的,有兩種方式可以考慮:
第一、采用Z檢驗(yàn),比較兩組的吸煙比例,即比較48.32%和20.87%之差是否有統(tǒng)計(jì)學(xué)意義。這種方式類似于t檢驗(yàn),通過計(jì)算兩組比例的差值及其標(biāo)準(zhǔn)誤,用差值除以標(biāo)準(zhǔn)誤便得到Z值,然后根據(jù)正態(tài)分布做出推斷即可。
第二、采用X2檢驗(yàn),不是比較兩組比例,而是表中的實(shí)際頻數(shù)和理論頻數(shù)的差異做出推斷。
2、X2檢驗(yàn)的思想
再強(qiáng)調(diào)下,X2檢驗(yàn)強(qiáng)調(diào)的是兩組比較。
(1)首先做出假定(無效假設(shè)),認(rèn)為心肌梗死與吸煙無關(guān),或者說心肌梗死患者與非心肌梗死患者吸煙比例是相等的。
(2)由于所有人的吸煙比例為240/720=33.33%,如果無效假設(shè)成立(心肌梗死與吸煙無關(guān)),那么心肌梗死患者和非心肌梗死患者的吸煙比例應(yīng)該是一致的,都是33.33%。注意啦,這里比較的是兩組,即心肌梗死和非心肌梗死。從而得出心肌梗死患者吸煙例數(shù)109人,而非心肌梗死患者中吸煙的例數(shù)位131人。
(3)這里的109 人和131 人是在無效假設(shè)成立的前提下理論上應(yīng)該出現(xiàn)的例數(shù),因此稱為理論頻數(shù)(Theoretical Frequency) 。
(4)實(shí)際上,心肌梗死患者和非心肌梗死患者中的吸煙例數(shù)并不是109 人和131 人,而是158 人和82 人。這里的158 人和82 人是實(shí)際調(diào)查數(shù)據(jù)中出現(xiàn)的例數(shù),因此稱為實(shí)際頻數(shù)(Actual Frequency)。
3、理論頻數(shù)和實(shí)際頻數(shù)并不相等
造成這種差異的原因至少有兩個(gè):
(1)該研究是抽樣調(diào)查,即使無效假設(shè)真的成立,由于抽樣誤差的存在,兩組的吸煙人數(shù)也不大可能正好是109 人和131人,總會有一定差異。
(2) 理論頻數(shù)是在無效假設(shè)(假定兩組人群的吸煙比例相等)成立的條件下計(jì)算出來的。如果這一假定是錯(cuò)誤的,那么實(shí)際頻數(shù)與理論頻數(shù)有差異就不足為奇了。
4、無效假設(shè)錯(cuò)誤 or 抽樣誤差?
這時(shí)候,我們的X2檢驗(yàn)出場了。


不難看出, f 值反映了理論頻數(shù)和實(shí)際頻數(shù)的差異大小。理論頻數(shù)和實(shí)際頻數(shù)差別越大(分子越大),X2值越大;反之,X2值越小。
5、X2的判斷方式
(1)當(dāng)無效假設(shè)成立時(shí),理論頻數(shù)和實(shí)際頻數(shù)應(yīng)該相等,此時(shí)X2值為0 。如果無效假設(shè)成立,只是由于抽樣誤差造成理論頻數(shù)和實(shí)際頻數(shù)不相等,則二者差別
應(yīng)該很小,X2值也應(yīng)該很小。如果X2值太大,則無法用抽樣誤差來解釋,只能認(rèn)為無效假設(shè)可能不成立,即兩組人群的吸煙比例不同(或心肌梗死與吸煙有關(guān))。
(2)X2值多大才算差別過大呢?
由于這個(gè)公式服從X2分布,因此可根據(jù)X2分布來確定。X2分布的特征與自由度有關(guān),其自由度為(行數(shù)-1)X(列數(shù)-1),對于四表格,則自由度為1.
(3)對于自由度為1的X2分布,當(dāng)X2值大于3.84時(shí),右側(cè)面積小于0.05,可以認(rèn)為是小概率事件,即理論頻數(shù)和實(shí)際頻數(shù)不大可能是由于抽樣誤差造成,從而拒絕無效假設(shè),認(rèn)為兩組比例可能確實(shí)有差異。
6、計(jì)算過程


SAS 軟件給出的X2檢驗(yàn)結(jié)果:

由于X2值遠(yuǎn)遠(yuǎn)大于3.84, 所以可以認(rèn)為有足夠的證據(jù)拒絕無效假設(shè),認(rèn)為心肌梗死和吸煙是有關(guān)聯(lián)的,或者說,心肌梗死患者和非心肌梗死患者的吸煙比例是有差異的。