序言
作為剛剛寫完一些術(shù)語的解答的我,覺得應(yīng)該進(jìn)一步的了解一下進(jìn)化相關(guān)的數(shù)學(xué)模型。其中包括但不僅僅局限與Tajima's D中經(jīng)常提到neutral model,當(dāng)然還有另外一個(gè)則是經(jīng)常在探究是否是neutral還是adaptive進(jìn)化時(shí)提到的Coalescent theory,這篇文章打算全面的學(xué)習(xí)一下這東西。
介紹Coalescent theory
從詞的本身的含義上就大概知道這一整個(gè)詞的意思,Coalescent 本身就是合并、聯(lián)合的意思,所以該理論則是為了將現(xiàn)有的個(gè)體,按照一定的理論依據(jù),進(jìn)行合并,從而得到共同祖先的過程。
該模型最早在1980年開始提出并發(fā)展,但主要貢獻(xiàn)者為John Kingman。
在最簡單的假設(shè)下,則是沒有重組,自然選擇,基因流動(dòng),種群結(jié)構(gòu)變化,那么每一個(gè)變異都是同等機(jī)會(huì)的從上一代傳到下一代。
該模型中的變異來自于
- 父代到子代時(shí)隨機(jī)的傳遞
- allele隨機(jī)發(fā)生的突變
由于這個(gè)數(shù)學(xué)模型闡述的是非常原始的一個(gè)問題,“如何從祖先到現(xiàn)存的觀測的個(gè)體?”所以通過該理論,可以進(jìn)行模擬和驗(yàn)證其它模型,所以在很多的模型中也會(huì)涉及到這個(gè)理論的一部分內(nèi)容。
理論內(nèi)容
-
Time to coalescence
對(duì)于兩個(gè)株系來說,計(jì)算其來自共同祖先的概率,即計(jì)算共享一個(gè)父代DNA序列的概率。由于基本假設(shè)中,有效種群大小沒變,加上對(duì)于二倍體的群落來說,某個(gè)locus存在2Ne個(gè)拷貝,所以父代也有2Ne個(gè),在隨機(jī)交配假設(shè)下,兩個(gè)alleles來自同一個(gè)父代拷貝的幾率是1/2Ne,相應(yīng)的,不來自同個(gè)父代拷貝的則是1-1/(2Ne)
在接下去的每一代中,coalescence的概率呈幾何分布即計(jì)算N次投硬幣時(shí)的概率分布,即如下
而由于幾何分布的特性,當(dāng)Ne足夠的大時(shí),該分布會(huì)近似于指數(shù)分布。由于這是一種數(shù)學(xué)上的轉(zhuǎn)化,轉(zhuǎn)化后該指數(shù)分布就擁有相對(duì)應(yīng)的期望與方差,但雖然擁有一個(gè)期望時(shí)間是2Ne,但其實(shí)真實(shí)的coalescence tim還有更大的variantion。注意的是其中的coalescent時(shí)間的單位是代,如果要轉(zhuǎn)化成為真實(shí)時(shí)間的話,需要再進(jìn)行乘上平均傳代時(shí)間。 -
Neutral variation
除了計(jì)算coalescent時(shí)間,同時(shí)也可以建模估計(jì)來自遺傳漂變和突變的DNA序列上的變異。在此稱之為平均雜合性(mean heterozygosity),通過計(jì)算某一代中發(fā)生的突變的概率,除以這一代發(fā)生任何事件(包括突變和合并)的概率。
一個(gè)事件是突變的概率,則是一個(gè)突變出現(xiàn)在兩個(gè)lineages之一的幾率,即2μ(2 倍的突變率)
分母就是突變和合并的概率之和。
其中θ則為pairwise的差異,由neutral model得出。對(duì)于θ>=1的情況,則代表大部分的allele pairs在核苷酸序列上至少有一個(gè)差異(difference)。

