自然選擇的分子印跡(精讀第三天)
由于最近不知不覺開始涉及群體遺傳學(xué),所以準備精讀(其實就是原文翻譯)一篇review盡力去了解這個我陌生的領(lǐng)域。文章原標題為Molecular Signatures of Natural Selection, 作者Rasmus Nielsen。
群體遺傳學(xué)預(yù)測
分子群體遺傳學(xué)的其中一個方向就是從分子變異中區(qū)分出中性變異(僅僅受到遺傳漂變的影響),找到受到選擇尤其是正選擇的變異。其中一個重要觀點就是,中性模型通常允許強的有害突變的存在,而這些強的有害突變會降低適應(yīng)度,因此會從群體中立即被清除。如果選擇僅僅包括這些非常強效應(yīng)的突變,那么伴隨群體分離的突變就只會是中性突變。因此,中性模型有普遍強的負選擇存在。但是負選擇或純化選擇也很有用,它能幫助檢測重要的功能區(qū)域或殘基,而目前大多數(shù)進化相關(guān)文獻注重于正選擇,因為它和新功能的適應(yīng)和演化相關(guān)。群體遺傳學(xué)其中一個爭論就是正選擇能多大程度上解釋種群間和種群內(nèi)的變異模式
我覺得這里作者想表達的觀點是:通常正選擇才會保留突變,而負選擇會淘汰不利突變,淘汰的突變就不能被我們所觀察到。但是中性模型卻是能夠保留負選擇的突變,那我們應(yīng)該關(guān)注中性模型中那些強烈負選擇的區(qū)域,這些區(qū)域可能就有重要的功能。
過去50多年的群體遺傳學(xué)的理論文獻主要集中在開發(fā)和分析模型,讓之前提到的基本雙等位基因模型一般化,能夠處理兩個以上可能分離的等位基因,處理出現(xiàn)的多個突變和相互作用(這可能是重組導(dǎo)致),處理會隨著時間發(fā)生改變的環(huán)境,以及受到各種人口因素作用導(dǎo)致的隨機遺傳漂變。在理論上,我們已經(jīng)獲得了許多有價值的見解,比如,選擇效率不僅僅依賴于選擇系數(shù),而主要依賴于選擇系數(shù)和有效群體大小乘積。選擇效應(yīng)的提高可能是由于群體大小的增加,也可能是較大的選擇系數(shù)。其中重要發(fā)現(xiàn)還有,選擇衡量的產(chǎn)生原因有多種,不僅僅是超顯性(例如環(huán)境條件波動),因此有可能非常常見。而選擇效力會因為基因組上多個選擇位點同時分離而降低。突變之間會相互干擾,降低局部有效群體大小。許多群體遺傳學(xué)曾經(jīng)認為,保持大量選擇所需的選擇性死亡數(shù)量必須如此之大,以至于選擇可能在形成遺傳變異方面起著非常小的作用。這些參數(shù)被稱為遺傳負荷參數(shù)(genetic load arguments),有助于中性理論的發(fā)展。然而,基因組允許的選擇數(shù)量取決于突變和物種適應(yīng)度以及其他重要模型假設(shè)的交互效應(yīng)。在缺少來自于活著物種的真實數(shù)據(jù)前,群體遺傳理論沒有排除選擇普遍存在以及能夠單獨確定相對重要性和選擇形態(tài)(modality of selection)的可能。
目前已經(jīng)有了大量基因組數(shù)據(jù)集,許多理論里的推測可以得到驗證。特別地,我們有能力檢測到新出現(xiàn)并具有強的選擇優(yōu)勢的突變的分子印跡,因為它們已經(jīng)固定,即在群體中頻率達到了1。當這些突變頻率增加時,它們會傾向于降低鄰近區(qū)域的變異,這些區(qū)域里的中性變異會分離。這種被選擇的突變位點在固定時會降低連鎖位點的變異程度的過程就是選擇性清除(selective swepp),見圖1。也就是說可以通過分析大量比較基因組學(xué)數(shù)據(jù)集和大量SNP數(shù)據(jù)集,我們就能夠同時確定正選擇和負選擇的在人類和其他物種中的位置,以及時如何影響變異。

自然選擇的群體遺傳學(xué)印跡
自然選擇的其中一個主要效應(yīng)就是改變物種間和物種內(nèi)的變異程度,見表1。選擇性清除傾向于顯著地降低中間內(nèi)變異度,但是不會減少物種特異性差異(species-specific differences)。相反地,作用于多個位點地負選擇更傾向于顯著降低物種間變異度而不是物種內(nèi)。表1總結(jié)了不同類型的選擇如何影響變異度。注意,單單突變率的改變將同時影響物種間(interspecific)和物種內(nèi)(intraspecific)的變異度,但是影響程度不同。因此,許多常用的群體遺傳學(xué)檢測選擇的方法就是基于物種間變異的比較,其中最有名的就是HKA測驗。在該測驗中,多個基因的分離多態(tài)位點的比率會用來比較。如果比率在這些基因的變化程度高于中性模型的期望值,就拒絕中性假設(shè)。
| 進化因子 | 種內(nèi)變異性 | 種間變異性 | 種間/種內(nèi)變異性比率 | 頻率譜 |
|---|---|---|---|---|
| 提高變異率 | 提高 | 提高 | 無影響 | 無影響 |
| 負定向選擇 | 降低 | 降低 | 當選擇不是特別強時降低 | 提高低頻率標記的比例 |
| 正定向選擇 | 提高或降低 | 提高 | 提高 | 提高高頻率變異的比例 |
| 平衡選擇 | 提高 | 提高或降低 | 降低 | 提高中等頻率變異的比例 |
| 選擇性清除 | 降低 | 平均替換率不變,但是提高變異 | 提高 | 大多為提高低頻率變異的比例 |
群體分化(population differentiation)
大部分情況下,選擇會提高種群之間的分化程度。特別是最近的理論發(fā)現(xiàn),選擇性清除可以極大地影響物種的細分水平(level of population subdivision), 尤其是當選擇性清除還沒有傳播到同一物種的所有種群時。當一個座位相比較其他座位在遺傳上有異常的群體分化水平時,這個位點就可以被解釋為正選擇的證據(jù)。
其中一個使用該現(xiàn)象的中性檢驗方法叫做Lewontin-Krakauer測驗。該測驗當種群間的遺傳分化大于專門的中性模型預(yù)測值時,拒絕原假設(shè)。最近在大規(guī)?;蚪M數(shù)據(jù)的出現(xiàn)又再度以不同的形式復(fù)活。例如,Akey等就檢查了人類不同種群全基因組范圍的Fst變異(群體分化常用衡量指標)。Beaumont和Balding 開發(fā)了精巧的統(tǒng)計學(xué)方法用來找種群細分中可能的離群值位點。
頻譜(The Frequency Spectrum)
選擇同樣也會影響中群內(nèi)的等位基因頻率分布。對于DNA測序或SNP數(shù)據(jù),一些很常見也有應(yīng)用的測驗就是基于信息匯總,即所謂的頻譜。頻譜就是變異數(shù)量的計數(shù),變異表示為X(i) = i/n, i=1,2,3,...,n-1,樣本大小為n。換句話說,就是樣本中不同突變的等位基因頻率的描述性統(tǒng)計展示。在標準中性模型中(如隨機交配,固定群體大小。無群體細分這類模型),X(i)的期望值是1/i.有害突變的負選擇會增加該突變在樣本中低頻率分離的比例。選擇性清除在頻譜上的效應(yīng)差不多相同。與之相關(guān),正選擇會提高突變在樣本中高頻分布的比例。不同選擇對頻譜的影響見圖2:

許多經(jīng)典中性測驗關(guān)注頻譜中提供的信息。比較有名的例子為Tajima’s D test。在該測驗中,配對序列的核酸差異平均數(shù)和總分離位點數(shù)相比較。如果兩個變異度測量值的差異大于基于標準中性模型的期望值,拒絕原假設(shè)。選擇性清除對Tajima’s D test的影響見圖1。Fu和Li拓展了這個測驗,使用一個演化上的外群(outgroup, 比如說人類遺傳變異分析的黑猩猩就是外群)來處理兩極信息(information regarding the polarity of the information),F(xiàn)u又做了更多的優(yōu)化。Fay和Wu提出的一個測驗,提高了突變引起的高頻信息的權(quán)重。奇迄今位置,這些測驗大多是應(yīng)用比較多中性測驗。
選擇性清除的模型(Models of Selective Sweeps)
選擇性清除產(chǎn)生的變異模式是非常復(fù)雜的空間模式(圖1)。中性測驗的功效會因加入選擇性清除的模式而提高,甚至找到選擇性清除的位置也是可能的。Kim和Stephan基于明確的群體遺傳學(xué)選擇性清除模型建立了一個模型。利用這個模型,他們可以計算出一個位點的期望頻譜,作為其與有利突變距離的函數(shù)。通過使用數(shù)據(jù)對該模型進行擬合,他們就能估計出選擇性清除的位置和強度,以及基于該選擇性清除的假設(shè)性檢驗。這個方法特別的使用,因為它考慮到了選擇性清除在序列上留下的空間模式。
LD(連鎖不平衡)和單倍型結(jié)構(gòu)
連鎖不平衡(linkage disequibibrium,LD)水平也就是不同位點的等位基因的相關(guān)性,會在選擇區(qū)域中增加。處于平衡選擇區(qū)域中的古老多態(tài)性位點會降低LD,但在瞬時相位(transient phase)時的多態(tài)性位點可能會提高LD。同樣選擇性清除在瞬時相位時也會提高LD水平,但是這階段會相對比較短。近期,大家逐漸認識到不完全的清除(當適應(yīng)性突變尚未在群體中完全固定時)會在單倍型結(jié)構(gòu)中留下不同的模式。這就使得許多基于LD的選擇檢測的統(tǒng)計學(xué)方法被開發(fā)出來。Hudson發(fā)展出基于出現(xiàn)在一個樣本的等位基因數(shù)目的測驗。Andolftto發(fā)展出相近的測驗,確定是否連續(xù)性變異位點的任意子集里得單倍型都比中性模型的期望值要少。Depaulis 和Veuille也提出相似的測驗。在該主題下,Sabeti提出的方法有一些變化,他考慮到遠離潛在選擇性清除位置的不同單倍型數(shù)目會增加。Kelly考慮了配對座位的相關(guān)水平。Kim和Nielsen拓展了Kim和Stephan的方法(前面的選擇性清除模型),加入配對位點去整合了連鎖不平衡的信息。
MacDonald-Kreitman 測驗
最后,MacDonald-Kreitman測驗探索了來自編碼區(qū)位點的兩類突變:非同義突變和同義突變。對數(shù)據(jù)進行匯總得到了MacDonald-Kreitman表格,包括物種內(nèi)和物種間的同義突變和非同義突變的計數(shù)。如果選擇只影響非同義突變,負選擇會降低非同義突變的數(shù)量,相對于同義突變正選擇會提高非同義突變的數(shù)目。然而,分歧數(shù)據(jù)中的效應(yīng)強于多態(tài)性數(shù)據(jù)。所以,就能基于物種內(nèi)和物種間的同義突變和非同義突變的比率建立類似于HKA測驗的測驗。如果這些比率差異顯著,就提供了選擇的證據(jù)。