最近論文吃緊,本來想搞搞群體多樣性的,無奈沒時間,為了保持簡書上我這個號殘余的一點熱乎氣,今天晚上分享一篇8年前寫的舊文,主要講Fisher檢驗的,有些不盡如意的地方稍作了一點點修改,措辭、語句、參考文獻等等。
0 導語
大約是2005年冬天,高中同學再寫給我的信中說他掛了一科,并且自我安慰道:“不掛科怎么是完美的大學生涯呢?”
我那個時候還暗自慶幸自己,期末考試成績時常游走于60-70分之間,但還沒掛過。
也許是注定要有一個“完美”的大學生涯。
就是第二個學期,即2006年夏天,我終于完美了一把,《生物統(tǒng)計學》掛了。
具體原因不再贅述,反正呢,你要是說是我笨我是肯定不同意的。
通過了那次補考之后,不禁暗自慶幸,終于啊,可惡的“生物統(tǒng)計學“與我,不僅僅是它走它的陽關(guān)道,我過我的獨木橋,而且兩者之間再也不會有任何交集,即獨立且互不相容。
然而,上天很會捉弄人,時至今日,我卻喜歡上了生物統(tǒng)計學,這其中原因說來話長,這里也不再贅述,總之一句話:”我是愛《生物統(tǒng)計學》的,可是我掛科了,難道非要自絕于社會不可了么?”
深夜的508,何其寂靜,沒有群蚊肆虐,沒有酷暑難當,真想在在整上一個通宵,無奈已經(jīng)沒了本科時代的那種白天考研備戰(zhàn),晚上浸淫世界杯的那種豪情,更無奈的是明天還要上班。
雖然快11點啦,但今天還是打算分享點東西再回窩睡覺。
1 超幾何分布和奶茶
首先介紹一種離散概率分布——超幾何分布:有N個樣本,其中m個是不合格的。超幾何分布描述了在該N個樣本中抽出n個,其中k個是不合格樣本的概率:
??????
上式可如此理解:表示所有在N個樣本中抽出n個的方式有多少;
表示在M個樣本中抽出k個的方式的總數(shù);剩下來的樣本都是及格的,而及格的樣本有
個,剩下的抽法便有
種。兩者相乘就表示抽出k個是無效的有多少種抽法,而除以抽法總數(shù)即
就表示抽出的n個樣本中有k個不合格樣本的概率
。
1935年的一個實驗:偉大的Fisher得知一個女同事能夠從口味分辨出下午茶的調(diào)制順序,為了驗證女同事是否在吹牛,做了一個有趣的實驗:他調(diào)制了8杯茶,其中4杯先放牛奶,4杯先放茶,讓女同事分辨,分辨的結(jié)果如下表:

事實上,根據(jù)小學數(shù)學知識,在已知了和
這兩個條件以后,b,c,d和n的值也就能求出來了,所以我們只需要計算在
已發(fā)生的情況下a=3的概率(事實上選擇a,b,c,d都可以得到同樣的效果):
接著我們可進一步的算出比表格中極端情況( 在此指Fisher的同事猜得更加準確時) 的概率:
如果全部推測對,瞎猜得到這種結(jié)果的可能是1.4%,由于此概率小于0.05,屬于小概率事件,而事實是小概率事件她都猜對了,說明她不是瞎猜的。
因此我們可以再計算出P值:
女同事如果是瞎猜的,那么她瞎猜得到這種結(jié)果的概率為24.3%,這個概率依然很高,不屬于小概率事件,因此無法推測女同事不是胡亂猜的。
這個跟超幾何分布有什么關(guān)系呢?哎,公式都一樣的,往里代就是啦!
不過區(qū)別是,超幾何分布是隨機地抽取,但是本例的抽取是依據(jù)女同事的判斷抽取,但一件事情由隨機變成了有依據(jù),那就需要利用P值來判斷這種依據(jù)的可靠性啦。
2 一個實際案例
我們看一個實際的案例:
一般大眾的猜測是:大學生節(jié)食的比比男生高。因此我們設(shè)定的虛無假設(shè)為H0:大學生與男生節(jié)食的比相同,對假設(shè)為Ha:大學生節(jié)食的比比男生高。

計算P值。
這里我不再說什么,因為P<0.01,所以大學生節(jié)食的比比男生高。
3 Fisher精確檢驗的基因組學應用
步入正題,涉及到基因組學的內(nèi)容啦!
水稻項目統(tǒng)計了基因A位點變異與水稻是否易感稻瘟病的資料如下:

依上表,易感稻瘟病的樣本中野生型似乎遠比變異型為高,因此設(shè)定零假設(shè)為H0:基因型與稻瘟病易感性無關(guān),備擇假設(shè)為Ha:野生型更易感染稻瘟病。則我們可依上表中的資算出單邊的p 值。
因為P<0.01,即基因A位點變異是有利突變。
業(yè)務(wù)線時代的我曾經(jīng)想過下面幾條,
Fisher精確檢驗的應用如下:
1.研究基因型與基因表達的關(guān)系:如SNP與其臨近的基因表達上調(diào)/下調(diào)之間的關(guān)系
2.研究基因型與表型的關(guān)聯(lián)性:如變異位點與相關(guān)性狀的關(guān)系檢驗
3.研究表型與表型的關(guān)聯(lián)性:如男性手指的長度與前列腺癌發(fā)病率的關(guān)系
PS:本文言語簡陋,比較粗糙,但是已盡述我的理解。
這正如上衣半截袖,下面三五七分褲,拖鞋,一身終極殺人王火云邪神的裝備,并非華麗的西裝革履,——一看就知這是我們信息部的弟兄們的標準配置;也正如linux系統(tǒng),一切皆為丑陋的命令行,雖然比不上windows那種高帥富的圖形界面,但比之丑陋的0,1似乎好看多了。
本為自用筆記,弟兄們?nèi)绻矚g,歡迎拍磚探討。
布萊特楊
2012年5月6日 22:49
備注
2012年5月6日首發(fā)于QQ空間《我愛統(tǒng)計學之Fisher精確檢驗》
2020年5月18日 發(fā)表于e媛微生態(tài)《生物統(tǒng)計學 | Fisher精確檢驗》