使用泊松分布判定chipseq的蛋白結(jié)合位點(diǎn)

二項(xiàng)分布和泊松分布都描述的是事件成功次數(shù)的分布,泊松分布是二項(xiàng)分布的極限分布,其適用條件是n很大,p很小的情況。生物學(xué)中一些過(guò)程可以使用二項(xiàng)分布或者泊松分布來(lái)模擬。

1. 使用二項(xiàng)分布判斷堿基含量

假如基因組中A,T,C,G的含量分別為20%,20%,30%,30%。那么一段長(zhǎng)度為1000bp的序列中CG含量在35%和45%之間的概率是:

# 將基因組上的每一個(gè)堿基看成一個(gè)獨(dú)立的試驗(yàn)
pbinom(450,  1000, 0.4) - pbinom(350, 1000, 0.4) = 0.9987609

2. 二項(xiàng)分布的正態(tài)近似 (Normal approximation)

上例中,每個(gè)堿基都是獨(dú)立同分布的隨機(jī)變量,那么當(dāng)序列足夠長(zhǎng),根據(jù)中央極限定理,服從以np為均值,np(1-p)為方差的正態(tài)分布,因此上例還可以這樣計(jì)算:

# 結(jié)果與使用二項(xiàng)分布相近
pnorm(450, 400, sqrt(240)) - pnorm(350, 400,, sqrt(240)) = 0.9993756

3. 使用二項(xiàng)分布進(jìn)行假設(shè)檢驗(yàn)

在尋找蛋白質(zhì)結(jié)合區(qū)域時(shí)(chip-seq peak calling),我們使用input control的目的就是可以使用二項(xiàng)分布或泊松分布作為null distribution,然后假設(shè)treatment中每個(gè)基因組區(qū)域(bin)的read counts并非顯著高于input中的counts,計(jì)算pvalue后,決定接受或拒絕原假設(shè)。

# 每條read是一次試驗(yàn),試驗(yàn)成功指read落到相應(yīng)的基因組區(qū)域中。
pvalue = pbinom(q, size, prob)
# q = treatment reads counts for each equally-sized bin
# size = total uniquely mapped reads in treatment file
# prob = input reads counts for each equally-sized bin / total uniquely mapped reads in input file

4. 使用泊松分布進(jìn)行假設(shè)檢

因?yàn)槊看卧囼?yàn)可以得到幾百萬(wàn)條唯一比對(duì)的reads(uniquely mapped reads),因此落到某一特定區(qū)域的reads概率肯定很低,這就滿(mǎn)足了使用泊松分布的條件,因此也可以用泊松分布來(lái)計(jì)算pvalue。

pvalue = ppois(q, lambda)
# q = treatment reads counts for each equally-sized bin
# lambda = input reads counts for each equally-sized bin / total uniquely mapped reads in input file
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容