二項(xiàng)分布和泊松分布都描述的是事件成功次數(shù)的分布,泊松分布是二項(xiàng)分布的極限分布,其適用條件是n很大,p很小的情況。生物學(xué)中一些過(guò)程可以使用二項(xiàng)分布或者泊松分布來(lái)模擬。
1. 使用二項(xiàng)分布判斷堿基含量
假如基因組中A,T,C,G的含量分別為20%,20%,30%,30%。那么一段長(zhǎng)度為1000bp的序列中CG含量在35%和45%之間的概率是:
# 將基因組上的每一個(gè)堿基看成一個(gè)獨(dú)立的試驗(yàn)
pbinom(450, 1000, 0.4) - pbinom(350, 1000, 0.4) = 0.9987609
2. 二項(xiàng)分布的正態(tài)近似 (Normal approximation)
上例中,每個(gè)堿基都是獨(dú)立同分布的隨機(jī)變量,那么當(dāng)序列足夠長(zhǎng),根據(jù)中央極限定理,服從以np為均值,np(1-p)為方差的正態(tài)分布,因此上例還可以這樣計(jì)算:
# 結(jié)果與使用二項(xiàng)分布相近
pnorm(450, 400, sqrt(240)) - pnorm(350, 400,, sqrt(240)) = 0.9993756
3. 使用二項(xiàng)分布進(jìn)行假設(shè)檢驗(yàn)
在尋找蛋白質(zhì)結(jié)合區(qū)域時(shí)(chip-seq peak calling),我們使用input control的目的就是可以使用二項(xiàng)分布或泊松分布作為null distribution,然后假設(shè)treatment中每個(gè)基因組區(qū)域(bin)的read counts并非顯著高于input中的counts,計(jì)算pvalue后,決定接受或拒絕原假設(shè)。
# 每條read是一次試驗(yàn),試驗(yàn)成功指read落到相應(yīng)的基因組區(qū)域中。
pvalue = pbinom(q, size, prob)
# q = treatment reads counts for each equally-sized bin
# size = total uniquely mapped reads in treatment file
# prob = input reads counts for each equally-sized bin / total uniquely mapped reads in input file
4. 使用泊松分布進(jìn)行假設(shè)檢
因?yàn)槊看卧囼?yàn)可以得到幾百萬(wàn)條唯一比對(duì)的reads(uniquely mapped reads),因此落到某一特定區(qū)域的reads概率肯定很低,這就滿(mǎn)足了使用泊松分布的條件,因此也可以用泊松分布來(lái)計(jì)算pvalue。
pvalue = ppois(q, lambda)
# q = treatment reads counts for each equally-sized bin
# lambda = input reads counts for each equally-sized bin / total uniquely mapped reads in input file