01 什么是全基因組復(fù)制
多倍化(polyploidy)或全基因加倍/復(fù)制(whole genome duplication, WGD)事件是指基因組內(nèi)的所有序列都發(fā)生重復(fù),重復(fù)為生物進化提供了原始的遺傳材料,使植物基因組快速重組,丟失大量基因,增加結(jié)構(gòu)變異,對植物進化極其重要。
全基因組加倍事件結(jié)果:可以增加一個物種所有的基因拷貝,但在自然選擇的作用下,
倍增后的基因會經(jīng)歷不同的命運:
- 部分拷貝丟失;
- 失去功能(假基因化);
- 部分拷貝獲得新的功能(新功能化);
- 或者各自行使祖先基因的部分功能(亞功能化)。
02 為什么研究全基因組復(fù)制
多倍體植物廣泛存在于自然界中,如日常生活中的馬鈴薯、小麥、棉花等。多倍化事件或全基因組復(fù)制事件直接將染色體進行加倍,被認為是一種物種分化的驅(qū)動力。研究發(fā)現(xiàn)多倍化在有花植物進化過程中十分頻繁,在現(xiàn)存的被子植物和種子植物分化之前,都分別發(fā)生過加倍事件,可能對花和種子的產(chǎn)生有重要貢獻 (Jiao et al., 2011)?;蚪M加倍為物種提供了豐盛的演化材料(圖1)。被認為是提升了物種多樣性、環(huán)境適應(yīng)能力等(Jiao, 2018)。多倍化后的物種需要在原植物多倍化的研究對于生物進化、物種保護及遺傳育種等方面都具有重要的理論指導意義及實踐應(yīng)用價值。
全基因組復(fù)制(Whole genome duplication, WGD),為物種提供了豐盛的演化材料。雖然全基因組復(fù)制事件被認為是提升了物種的環(huán)境適應(yīng)能力,但一切都僅僅只是假說。實際上,多倍化一直以來都被認為是物種命運“死胡同”,因為多倍化后的物種需要在原先的“社會環(huán)境”中與二倍體物種爭奪生態(tài)位。相反,由于具有更多演化的可能性,多倍化物種能夠在有高環(huán)境壓力脅迫的環(huán)境中拔得頭籌,因此高脅迫環(huán)境的出現(xiàn)就如濾篩一般,幫助多倍化物種獲得生態(tài)位。
過去的十年是對植物古多倍化研究的高峰時期。一些重要的古多倍化事件,與這些事件帶來的物種爆發(fā)以及個別基因功能的演化,不斷得到識別。例如:
- 在 被子植物和種子植物 開始大規(guī)模分化前,其祖先各發(fā)生了一次 古多倍化 事件;
- 在 單子葉和雙子葉植物 中,其分別經(jīng)歷了 早期的多倍化:Gamma以及Tau事件 ;
- 在 被子植物 中,那些物種豐富的科都有過一樣的故事:如菊科、十字花科、葫蘆科、豆科、禾本科、以及蘭科等。
看似對于重要類群而言,沒有全基因組復(fù)制事件傍身,都不好意思發(fā)生分化。

不同證據(jù)表明,全基因組復(fù)制事件發(fā)生于植物演化的不同時期。但巧合的是,有大量的重復(fù)事件發(fā)生于白堊紀-第三紀大滅絕事件(Cretaceous–Paleogene,K-Pg),也被稱為K-Pg線,即傳聞讓所有恐龍不復(fù)存在的那次生物大滅絕事件。這也暗示著,全基因組復(fù)制事件可能幫助物種適應(yīng)當時惡劣的氣候環(huán)境,使得他們于滅絕事件中存活下來。但對于此,一切都僅僅是猜測,尚未有明確的遺傳學證據(jù)證明。
先前的研究識別了不同類群的WGD事件所復(fù)制的基因,雖然他們并沒有將這些事件串聯(lián)起來,以總結(jié)被子植物的規(guī)律,但結(jié)果也揭示了,基因組復(fù)制事件的確是物種自身的基因調(diào)控網(wǎng)絡(luò)變得更為復(fù)雜的原因之一。

03 如何鑒定全基因組復(fù)制
鑒定全基因組復(fù)制的方法一般可以通過以下三種:
(1)共線性分析
共線性塊 推斷WGD的有無及其倍性(或者基于共線性基因 的溯祖樹/物種樹推斷WGD是否共享);
第一種可以通過基因(基因組)的共線性(synteny)進行識別,方法比較直觀。其方法是全基因組范圍比較兩個物種的基因(基因組)的序列,并將同源序列的位置繪制成點狀圖,如果能在點狀圖中發(fā)現(xiàn)比較明顯的長片段,并且這樣的長片段比較多,便可以推測是由于大尺度的基因組重復(fù)以后保留下來的痕跡,而一般我們假想這種大尺度的基因組重復(fù)往往就是全基因組發(fā)生了復(fù)制。
同樣,對于單個物種而言,我們也可以繪制基因組內(nèi)部的共線性的點狀圖,如果發(fā)現(xiàn)同一個物種的基因(基因組)的區(qū)間可以匹配到多個不同的區(qū)間中,這就暗示了該物種經(jīng)歷過基因組的加倍事件。但對于經(jīng)歷過多次全基因組加倍事件的物種來說,后來的加倍事件會加速上一次加倍事件的基因丟失,造成上一次加倍事件的痕跡越來越不明顯,這也給共線性分析帶來干擾。
(2)同義突變率 Ks 方法
假設(shè)這個基因沒有受到自然選擇壓力,那么根據(jù)中性選擇理論,非同義替換率和同義替換率應(yīng)該是相同的。但一般來講,非同義替換會造成氨基酸的改變,進而影響蛋白質(zhì)的構(gòu)象和功能,因此會造成適應(yīng)性的變化,從而帶來自然選擇的優(yōu)勢或劣勢(一般是劣勢)。而同義替換沒有改變蛋白質(zhì)的組成,因此不受自然選擇的影響,那么 Ks 就能反映進化過程的背景堿基的替換率。Ka/Ks 的比值就能說明這個基因是受到了何種選擇。
Ks 代表了進化過程的背景堿基替換率,因此可以用 Ks 來反推事件發(fā)生的時間,如全基因組多倍化的時間,這在探究物種起源方面有重要應(yīng)用。這也是目前比較流行的方法。全基因組加倍事件會產(chǎn)生大量的同源基因,反映在 Ks 值上便是會有大量的 Ks 值接近的同源基因?qū)Φ漠a(chǎn)生,通過統(tǒng)計這些同源基因?qū)Φ臄?shù)量,繪制Ks 值的分布圖便可以發(fā)現(xiàn)明顯的 Ks 值峰,而這些峰也就對應(yīng)了全基因組的加倍事件。這種方法是基于兩點假設(shè):基因的突變頻率是穩(wěn)定的;同義突變(Ks)不會影響物種適應(yīng)性,因為并不會造成氨基酸序列的變化。
要進行 Ks 分析,首先要找到 同源基因?qū)?/strong>,在不同的物種里面(比如向日葵-咖啡),是找最近的直系同源基因(ortholog),而在一個物種內(nèi)部(比如向日葵-向日葵),則是找最近的旁系同源基因(paralog)。通過計算這些基因的 Ks 值,我們就可以繪制出不同 Ks 值對應(yīng)的基因?qū)?shù)量的分布圖。旁系同源基因?qū)Φ?Ks 分布峰值對應(yīng)全基因組復(fù)制事件,直系同源基因?qū)Φ姆逯祵?yīng)物種的分化事件,借助于物種分化事件對應(yīng)的時間,可以推出全基因組復(fù)制事件發(fā)生的時間。
當然 Ks 值也有一些不可避免的限制,比如很難應(yīng)用于比較古老的基因組加倍事件的識別,這是因為隨著時間的推移,同義替換趨于飽和,會導致 Ks 值計算的偏差,對于尋找古老的基因組加倍事件造成困難。
(3)4dTV 分析
4DTV( four-fold synonymous (degenerative) third-codon transversion)一個遺傳密碼子通常由三個核苷酸構(gòu)成,從左到右依次為第一個位點、第二個位點、第三個位點。如果密碼子的某個位點上無論是哪種核苷酸,均編碼同樣的氨基酸,則稱這個位點為 4 倍簡并位點。例如甘氨酸密碼子(GGA, GGG, GGC, GGU)的第三個位點就是一個 4 倍簡并位點。按照密碼子表,目前只有某些密碼子的第三個位點才可能是 4 倍簡并位點。4 倍簡并位點存在使得使基因更加耐受點突變,可以容忍密碼子第三位的任何變異 。

04 基于共線性推斷全基因組加倍
基因組共線性是基因組加倍比較直接的證據(jù),通過比較兩個基因組的序列并將共線性的區(qū)域作圖展示,可以直觀發(fā)現(xiàn)全基因組加倍的痕跡。
- 如圖2(左)蘋果基因組(Daccord et al., 2017)的circos圖中,可以明顯染色體間大片段的共線性,表明該物種 近期 發(fā)生了全基因組復(fù)制。
- 在向日葵基因組(Badouin et al., 2017)中,通過基因組自身的比對 展示如圖2(右),對角線為物種自身的基因和其本身的共線性。其余的點為基因組其他位置的旁系同源基因?qū)Α?/strong>圖中紅色圓圈標注的位置,表明這兩段之間具有一定的共性,為基因組加倍事件留下的痕跡。
如果物種經(jīng)歷過多次全基因組加倍事件,近期的加倍事件會加速早期加倍事件的基因丟失,早期的加倍事件痕跡往往越來越不明顯,共線性直觀上不明顯,這就需要我們探索其他方式來挖掘加倍事件,這就用到了4DTv和Ks的信息。下面我們對這兩種方式來進行簡單的介紹。
05 為什么 4DTv 和 Ks 能夠反映全基因組復(fù)制
同義突變 指突變并不影響氨基酸序列,進而不會影響蛋白結(jié)構(gòu)與功能。一般認為,同義突變不受自然選擇,同義突變率(Ks)的計算為同義突變SNP數(shù)/同義位點數(shù)。由于同義位點突變不會引起氨基酸的變化,可以認為對編碼蛋白沒有影響,那么密碼子同義位點的變化是完全隨機的,并隨時間推移累積。如果物種發(fā)生了全基因組加倍事件,現(xiàn)有基因組中會有一定數(shù)量的基因保留下來,,計算得到的Ks值也接近,在某一個Ks值處會形成一個峰(ks peak)。如果這處Ks值的基因數(shù)目足夠多,就會形成比較尖的峰值,可以認為在進化過程中該處發(fā)生過全基因組加倍事件。
全基因組加倍發(fā)生的時間越久遠,基因丟失越多,發(fā)生的變化也要越大,形成的Ks峰越扁平,影響對全基因組加倍事件的判斷。
4DTv與Ks有異曲同工之處(Tang et al., 2008)。如果密碼子的某個位點上任何核苷酸的改變都不影響其編碼的氨基酸,則稱這個位點為4倍簡并位點(fourfold degenerate site)。是指共線性區(qū)段所包含的基因?qū)Φ?DTv值可反映物種在進化史中的物種相對分化事件以及全基因組復(fù)制事件。4DTv指4D位點上發(fā)生顛換(嘌呤突變?yōu)猷奏せ蛘哙奏ね蛔優(yōu)猷堰剩┑奈稽c所占的比例。
06 全基因組復(fù)制 4DTv 和 Ks 結(jié)果解讀
以辣椒基因組文章中的4DTv和罌粟基因組文章中的Ks結(jié)果為例,解析全基因組復(fù)制事件。在辣椒基因組(Qin et al., 2014)文章中(如圖3),選取了辣椒(pepper)、葡萄(grape)、土豆(potato)、番茄(tomato)進行4DTv分析。結(jié)果如下圖。從圖中可以看出在辣椒和葡萄分后(黃色線,4DTv值0.5處),茄科植物辣椒、土豆和番茄在分化之前共同發(fā)生了全基因組復(fù)制(圖中指示W(wǎng)GD位置,黑線、藍線和紅線在4DTv值0.3處的峰值),之后辣椒和番茄分開(圖中綠線,4DTv值0.1處)。
關(guān)于4DTv如何推斷全基因組加倍時間,文章中也給出了建議:在4DTv值0.48和0.1處分別為辣椒和葡萄、辣椒和番茄的物種分化時間,對應(yīng)的時間點為~89和20Mya,辣椒、番茄和土豆共有的全基因組加倍事件在4DTv值約0.3處,基于此可以大致推斷該全基因組復(fù)制事件發(fā)生的時間約在55Mya。
在罌粟基因組文章(Guo et al., 2018)中,選取了罌粟(opium poppy)、耬斗菜(Aquilegia coerulea)、蓮(otus)、葡萄(grape)、擬南芥(Arabidopsis)進行Ks分析,結(jié)果如下圖,從Ks峰圖和進化樹可以看出:
- (1)葡萄和罌粟在Ks值約 1.6 處(黃線)分開;
- (2)葡萄在Ks值約1.4處(綠線)發(fā)生了核心雙子葉植物共有的全基因組三倍化事件;
- (3)耬斗菜在Ks值約1.0-1.2處發(fā)生了單獨的全基因組復(fù)制,由于復(fù)制時間比較久遠,所以峰較為扁平;
- (4)蓮在Ks值約0.5處發(fā)生了單獨的全基因組復(fù)制事件;
- (5)罌粟在Ks值約0.1處發(fā)生了全基因組復(fù)制,這是一個較為近期的全基因組復(fù)制事件。通過公式
T=Ks/2r可以計算全基因組加倍事件發(fā)生的時間,r為核苷酸替代率,在文章中使用了6.98 × 10-9,計算得到的加倍時間在7.8百萬年前。
07 鑒定全基因組復(fù)制后還能做些什么
- 全基因組加倍后的 復(fù)制基因的命運 各有不同,其保留與丟失是否有偏向性 ?
- 哪些基因傾向于保留,保留基因功能是否發(fā)生變化 ?
- 保留的重復(fù)基因及其對調(diào)控網(wǎng)絡(luò)進化的影響 ?
- 基因組加倍在被子植物的適應(yīng)性進化中發(fā)揮的作用,如何幫助植物適應(yīng)劇烈環(huán)境變化等(Wu et al., 2020),這些都是全基因組復(fù)制后續(xù)可以挖掘的內(nèi)容。
08 基因特征對全基因組重復(fù)產(chǎn)生基因進化命運的影響 (性格決定命運)
多倍化在被子植物中普遍存在,幾乎所有的被子植物基因組都經(jīng)歷過多倍化事件,與人們生產(chǎn)生活密切相關(guān)的許多作物都是多倍體或古多倍體。多倍化是被子植物進化的重要力量,許多植物物種就是多倍化形成的。例如,擬南芥基因組經(jīng)歷了至少3次多倍化事件,水稻基因組經(jīng)歷了至少2次多倍化事件,玉米基因組經(jīng)歷了至少3次多倍化事件。在多倍化發(fā)生后,整個基因組將經(jīng)歷快速的進化以重建二倍體的二倍化過程。在二倍化過程中,發(fā)生大量持續(xù)性的基因丟失事件。在以往的研究中發(fā)現(xiàn),二倍化過程中基因的保留和丟失具有顯著的偏好性,某些功能類別的基因更傾向被保留下來。然而,基因保留和丟失的偏好性這一現(xiàn)象背后的機制至今尚沒有明確的結(jié)論。
中國科學院昆明植物研究所國家大科學裝置中國西南野生生物種質(zhì)資源庫植物種質(zhì)資源與基因組學研究中心高立志研究員課題組歷時六年,對擬南芥、水稻、玉米、高粱、楊樹和大豆六個植物基因組的全基因組重復(fù)現(xiàn)象進行詳盡的分析,深入研究了基因的諸多生物學特征對基因保留和丟失偏好性的影響,發(fā)現(xiàn)基因的進化速率、結(jié)構(gòu)復(fù)雜性與GC含量對基因保留具有顯著的影響,進一步的分析表明:
(1) 基因的特征在一定程度上決定了全基因組重復(fù)發(fā)生后保留的重復(fù)基因傾向于通過哪一種機制留存在基因組中;
(2) 結(jié)構(gòu)復(fù)雜的基因發(fā)生亞功能化的幾率最高;
(3) 低進化速率的基因往往受到劑量平衡效應(yīng)的影響;
(4) 而高GC含量的基因更傾向發(fā)生新功能化;
該研究第一次在多達六個有花植物基因組中對全基因組重復(fù)現(xiàn)象進行了比較分析,通過詳細的統(tǒng)計學分析發(fā)現(xiàn)了決定基因保留或丟失的一些普遍性機制。研究結(jié)果不僅有助于目前全基因組重復(fù)后重復(fù)基因進化命運的諸多進化模型爭議的解決,對進一步的研究提供了重要啟示,即基因本身的特征對其進化命運具有顯著的影響。
該成果在線發(fā)表于植物學領(lǐng)域著名學術(shù)刊物美國《植物生理學報》(Plant Physiology),"Prevalent role of gene features in determining evolutionary fates of WGD duplicated genes in flowering plants" 。
參考文獻
Badouin, H., Gouzy, J., Grassa, C.J., Murat, F., Staton, S.E., Cottret, L., Lelandais-Briere, C., Owens, G.L., Carrere, S., Mayjonade, B., et al. (2017). The sunflower genome provides insights into oil metabolism, flowering and Asterid evolution. Nature 546, 148-152.
Daccord, N., Celton, J.M., Linsmith, G., Becker, C., Choisne, N., Schijlen, E., van de Geest, H., Bianco, L., Micheletti, D., Velasco, R., et al. (2017). High-quality de novo assembly of the apple genome and methylome dynamics of early fruit development. Nat Genet 49, 1099-1106.
Guo, L., Winzer, T., Yang, X., Li, Y., Ning, Z., He, Z., Teodor, R., Lu, Y., Bowser, T.A., Graham, I.A., et al. (2018). The opium poppy genome and morphinan production. Science 362, 343-347.Jiao, Y. (2018). Double the Genome, Double the Fun: Genome Duplications in Angiosperms. Mol Plant 11, 357-358.
Jiao, Y., Wickett, N.J., Ayyampalayam, S., Chanderbali, A.S., Landherr, L., Ralph, P.E., Tomsho, L.P., Hu, Y., Liang, H., Soltis, P.S., et al. (2011). Ancestral polyploidy in seed plants and angiosperms. Nature 473, 97-100.
Qin, C., Yu, C., Shen, Y., Fang, X., Chen, L., Min, J., Cheng, J., Zhao, S., Xu, M., Luo, Y., et al. (2014). Whole-genome sequencing of cultivated and wild peppers provides insights into Capsicum domestication and specialization. Proc Natl Acad Sci U S A 111, 5135-5140.
Tang, H., Wang, X., Bowers, J.E., Ming, R., Alam, M., and Paterson, A.H. (2008). Unraveling ancient hexaploidy through multiply-aligned angiosperm gene maps. Genome Res 18, 1944-1954.
Wu, S., Han, B., and Jiao, Y. (2020). Genetic Contribution of Paleopolyploidy to Adaptive Evolution in Angiosperms. Mol Plant 13, 59-71.
Wu S, Han B, Jiao Y. Genetic contribution of paleopolyploidy to adaptive evolution in angiosperms[J]. Molecular Plant, 2019.
Ren R, Wang H, Guo C, et al. Widespread whole genome duplications contribute to genome complexity and species diversity in angiosperms[J]. Molecular plant, 2018, 11(3): 414-428.
Jiao Y. Double the genome, double the fun: genome duplications in angiosperms[J]. Molecular plant, 2018, 11(3): 357-358.
Van de Peer Y, Mizrachi E, Marchal K. The evolutionary significance of polyploidy[J]. Nature Reviews Genetics, 2017, 18(7): 411.
參考鏈接:
http://www.itdecent.cn/p/e5f0f9faf155
https://zhuanlan.zhihu.com/p/90664781
https://www.omicsclass.com/question/213