睡蓮基因組與開花植物的早期進化

今天分享一篇文獻,來自去年12月張亮生團隊發(fā)表在nature上的一篇文章:The water lily genome and the early evolution of flowering plants

睡蓮屬于被子植物睡蓮目(Nymphaeales)。無油樟目(Amborellales)、睡蓮目(Nymphaeales)和木蘭藤目(Austrobaileyales)共同組成了早期被子植物類群(ANA被子植物類群),它們是現(xiàn)存被子植物的代表,從譜系分化的最早期發(fā)展到現(xiàn)存的被子植物。在此,我們公布了藍星睡蓮(Nymphaea colorata)的基因組(409Mb)。系統(tǒng)發(fā)育組顯示,睡蓮和無油樟屬于早期被子植物類群。通過藍星睡蓮基因組及其他19個睡蓮的轉(zhuǎn)錄組分析,顯示睡蓮科祖先發(fā)生了一次全基因組復(fù)制事件,這次復(fù)制事件可能由睡蓮科(Nymphaeaceae)和莼菜科(Cabombaceae)所共享。在全基因組復(fù)制事件保留的基因中,有調(diào)節(jié)花期轉(zhuǎn)變和花期發(fā)育的同源基因。藍星睡蓮中花ABCE同源基因的廣泛表達,可能揭示了在早期被子植物花器官中可能具有類似廣泛活躍的ABCE祖先模型。睡蓮進化出了迷人的花香和顏色,這是被子植物共有的特征,在藍星睡蓮中我們推測出了它們的生物合成基因?;ㄏ阄侗澈蟮幕衔锖蜕锖铣苫虮砻?,它們的進化與被子植物是平行的。由于其獨特的系統(tǒng)發(fā)育位置,藍星睡蓮基因組揭示了被子植物的早期進化。

許多睡蓮屬(Nymphaea)物種,特別是睡蓮科(Nymphaeaceae)的睡蓮,花朵大而艷麗,屬于被子植物(也稱為開花植物)。它們的美深深吸引著許多著名的藝術(shù)家,例如法國印象派畫家莫奈(Claude Monet)。睡蓮的花被(外部花器官)分化有限,但它們同時具有雄性和雌性器官,并且具有多種不同的氣味和顏色,與許多被子植物(核心被子植物,包括雙子葉植物,單子葉植物和木蘭科植物)相似(Supplementary Note 1)。此外,一些睡蓮的生命周期短,種子數(shù)量多,這增加了它們作為早期被子植物類群(ANA被子植物類群)模式植物代表并研究被子植物內(nèi)部早期進化事件的潛力。特別是,藍星睡蓮(N. colorata)的基因組相對較小(2n = 28;約400 Mb),且藍色的花瓣使它在育種中很受歡迎(Supplementary Note 1)。

在此,我們利用PacBio RSII單分子實時(SMRT)測序技術(shù)獲得的藍星睡蓮(N. colorata)基因組序列?;蚪M組裝成1429條contigs (contig N50為2.1Mb),總長度409 Mb, 804個scaffolds,其中770個scaffolds錨定在14條染色體上(Extended Data Fig. 1 and Extended Data Table 1)?;蚪M完整性評估為94.4%(Supplementary Note 2)。我們對31580個編碼蛋白基因進行了注釋,并預(yù)測了總長度為160.4 Mb的重復(fù)元件,占總基因組的39.2%(Supplementary Note 3)。

藍星睡蓮(N. colorata)基因組為解決無油樟目(Amborellales)、睡蓮目(Nymphaeales)和所有現(xiàn)存被子植物之間的關(guān)系提供了一個機會(Fig. 1a)。使用六個真雙子葉植物,六個單子葉植物,藍星睡蓮及無油樟屬,每三個裸子植物(銀杏(Ginkgo biloba)、云杉(Picea abies)和火炬松(Pinus taeda))作為又一個類群,我們分別鑒定了2169、1535和1515個直系同源低拷貝核基因(****LCN****)Fig. 1b)。當(dāng)使用銀杏(Ginkgo biloba)作為外群時,從核苷酸序列推斷出的LCN基因樹中,62%(475中的294)將無油樟(Amborella)作為所有現(xiàn)存被子植物的姐妹系,且自展支持度(bootstrap support)大于80%(type II, Fig. 1c)。而當(dāng)使用云杉(Picea abies)和火炬松(Pinus taeda)作為外群時,在LCN基因樹中,分別有57%和54%將無油樟(Amborella)作為所有現(xiàn)存被子植物的姐妹系,即支持無油樟(Amborella)是最早的被子植物類群。且利用氨基酸序列推斷出的LCN基因樹具有相似的系統(tǒng)發(fā)育模式(Supplementary Note 4.1)。

Fig. 1

為了使稀疏分類單元采樣的潛在缺陷最小化,我們還使用來自44個基因組和71個轉(zhuǎn)錄組的序列,包括ANA被子植物類群,雙子葉植物,木蘭類植物,單子葉植物和裸子植物外群(買麻藤(Gnetum montanum)、銀杏(Ginkgo biloba)、云杉(Picea abies)和火炬松(Pinus taeda))的代表來推論被子植物的物種進化樹。為了對這115個物種進行進一步的系統(tǒng)發(fā)育推斷,我們根據(jù)不同的標(biāo)準(zhǔn)選擇了5種不同的LCN基因集,包括1167、834、683、602和445個基因。對這五個數(shù)據(jù)集的分析均得出與無油樟(Amborella)相似的樹形拓撲,睡蓮目(Nymphaeales)作為所有其他現(xiàn)存被子植物的連續(xù)姐妹系。

使用101個嚴格的LCN基因以及基于21個化石的年齡對被子植物譜系的分子年代測定進行校準(zhǔn)。推斷出被子植物的冠齡為2.34-2.63億年前(Ma)(Fig. 1d)。單子葉植物和雙子葉植物之間的分界估計在1.71-2.02億年之間,而睡蓮科(Nymphaeaceae)和莼菜科(Cabombaceae)之間的分化在1.47-1.85億年之間。

基因組共線性揭示了藍星睡蓮(N. colorata)發(fā)生全基因組復(fù)制(WGD)事件的證據(jù)(Extended Data Figs. 1f, 2a and Supplementary Note 5.1)。藍星睡蓮(N. colorata)旁系同源基因的每個同義位點上的同義替換(Ks)分布的數(shù)量進一步表明,有一個Ks約為0.9的顯著峰值(Fig. 2a),而在其他睡蓮科(Nymphaeaceae)物種中也鑒定到了類似的Ks峰值(Supplementary Note 5.2)。這表明,一個古老的單一的全基因組復(fù)制事件(WGD)可能是睡蓮科成員所共有的。通過比較藍星睡蓮(N. colorata)旁系同源與藍星睡蓮(N. colorata)和其他睡蓮目世系(Nymphaeales lineages)、紅茴香(Illicium henryi)、無油樟(Amborella)之間的直系同源(代表物種形成事件)Ks分布,發(fā)現(xiàn)全基因組復(fù)制事件(WGD)發(fā)生在睡蓮科(Nymphaeaceae)與莼菜科(Cabombaceae)分化之后(Fig. 2a)。相比之下,對至少包含一個來自藍星睡蓮(N. colorata)共線區(qū)域的旁系同源基因家族的系統(tǒng)基因組學(xué)分析表明,全基因組復(fù)制事件(WGD)在睡蓮科(Nymphaeaceae)和莼菜科(Cabombaceae)之間共享(Fig. 2b, Supplementary Note 5.4)。如果屬實,那么莼菜科水盾草(Cabomba caroliniana)似乎保留了很少的重復(fù)(Fig. 2b, c),這也可以解釋水盾草(Cabomba caroliniana)旁系同源Ks分布中沒有明顯的峰(Supplementary Note 5.2)??紤]到Nymphaealean譜系中可變替換率(Fig. 2a****, b, Extended Data Fig. 2c),對藍星睡蓮(N. colorata)的絕對年代測定確實表明,全基因組復(fù)制事件(WGD)可能發(fā)生在睡蓮科(Nymphaeaceae)與莼菜科(Cabombaceae)分化之前或接近于它們的分化(Extended Data Fig. 2d, Supplementary Note 5.3)。對上述結(jié)果的另一種解釋可能是,全基因組復(fù)制事件來自于發(fā)生在睡蓮科祖先和莼菜科系譜之間的異源多倍事件,在它們分化后不久,睡蓮科(但不是莼菜科)的主干分支得以興起(Fig. 2d, Supplementary Note 5.4)。

Fig. 2

睡蓮起源于被子植物早期分化的一個分支,早于被子植物大范圍的輻射擴張。因此,睡蓮家族為了解被子植物,特別是開花植物的早期進化,提供了一個獨特的窗口。我們鑒定了70個MADS-box基因,包括參與花器官發(fā)育ABCE模型的同源基因:AP1 (還有 FUL) 及AGL6 (A參與萼片和花瓣發(fā)育), AP3PI (B參與花瓣和雄蕊發(fā)育), AG (C參與雄蕊和心皮發(fā)育), 以及SEP1 (E與ABC功能蛋白相互作用)。對MADS-box基因及其基因組鄰域的系統(tǒng)發(fā)育和共線性分析表明,在種子植物分化之前就存在古老的串聯(lián)重復(fù),產(chǎn)生了A功能基因(FUL)和E功能基因(SEP)的祖先(Extended Data Fig. 3, Supplementary Note 6.1)。此外,由于睡蓮(Nymphaealean)全基因組復(fù)制事件(WGD),藍星睡蓮(N. colorata)具有兩個旁系同源基因,即C功能基因AG的AGa和AGb(Extended Data Fig. 4)。類似地,由睡蓮(Nymphaealean)WGD衍生的重復(fù)序列同與心皮和雄蕊發(fā)育相關(guān)的其他基因、以及調(diào)控開花時間及生長素調(diào)控花的晝夜開合的基因是同源的(Extended Data Figs. 4–6, Supplementary Note 6.2–6.4)。

藍星睡蓮(N. colorata)ABCE同源基因的表達譜與它們在花器官中推測的作用基本一致(Fig. 3a)。值得注意的是,藍星睡蓮(N. colorataAGL6同源基因主要在萼片和花瓣中表達,而FUL同源基因主要在心皮中表達,說明AGL6在藍星睡蓮(N. colorata)中起A功能基因的作用。兩種C功能同源基因AGaAGb分別在雄蕊和心皮中高表達,而AGb也在萼片和花瓣中表達,表明它們可能在睡蓮(Nymphaealean)WGD后經(jīng)歷了花發(fā)育的亞功能化和可能的新功能化。此外,與雙子葉模型系統(tǒng)相比,藍星睡蓮(N. colorata)的ABCE同源基因在花器官中的表達范圍更廣(Fig. 3b)。這種更廣泛的表達模式,與至少一些ABCE基因在一些雙子葉植物中更廣泛的表達相結(jié)合,代表了一個早期分化譜系,一些單子葉植物和木蘭類植物,提出了一種古老的ABCE花發(fā)育模型,在被子植物,特別是核心雙子葉植物的進化過程中,隨后渠限化基因的表達和功能受到更特異的ABCE基因的調(diào)控。這也可以解釋為什么在睡蓮屬植物中萼片和花瓣的分化是有限的,這與被子植物祖先花中花被器官的單一類型是一致的。

Fig. 3

花香為昆蟲傳粉者提供嗅覺線索。然而無油樟屬的花是無香味的,藍星睡蓮的花釋放11種不同的揮發(fā)性化合物,包括萜類化合物(倍半萜烯)、脂肪酸衍生物(甲基癸酸酯)及苯環(huán)型化合物(Fig. 4a)。藍星睡蓮基因組包含92個假定的萜烯合酶(TPS)基因,這些基因歸屬于被子植物中4個已知的TPS亞家族:TPS-b, TPS-c, TPS-e/f 及TPS-g(Fig. 4b),但是在被子植物中沒有發(fā)現(xiàn)負責(zé)倍半萜生物合成的TPS-a。值得注意的是,在藍星睡蓮中,TPS-b亞家族含有80多個基因;其中NC11G0123420在花中高表達(Extended Data Fig. 7);這一結(jié)果表明,該基因可能是藍星睡蓮倍半萜烯生物合成酶的候選基因。此外,并未在單子葉和雙子葉揮發(fā)性化合物中檢測到癸酸甲酯,其被認為是由藍星睡蓮(N. colorata)SABATH甲基轉(zhuǎn)移酶家族合成的。藍星睡蓮(N. colorata)基因組包含13個SABATH同源基因,其中12個形成睡蓮目特異性家族(Supplementary Fig. 41)。在這12個成員中,NC11G0120830在花瓣中表達最高(Fig. 4c),并且其相應(yīng)的重組蛋白被證明是脂肪酸甲基轉(zhuǎn)移酶,其以癸酸為底物具有最高的活性(Fig. 4d, Supplementary Note 7.1)。這些結(jié)果表明,藍星睡蓮(N. colorata)的花香生物合成是通過酶的功能完成的,而酶的功能是獨立于被子植物的功能而進化的(Fig. 4e)。

Fig. 4

睡蓮(Nymphaea colorata)美麗迷人的藍色花瓣被認為是很有價值的,這在觀賞植物中是較為罕見的特征。為了理解藍色的分子基礎(chǔ),我們鑒定到翠雀素(3′-O-(2″-O-galloyl-6″-O-acetyl-β-galactopyranoside))為主要藍色花青素色素(Extended Data Fig. 8a–c)。通過比較兩個藍星睡蓮品種中白色和藍色花瓣中花青素生物合成途徑中基因的表達譜,我們發(fā)現(xiàn)花青素合酶和翠雀素修飾酶基因的表達在藍色花瓣中明顯高于白色花瓣(Extended Data Fig. 8d, e)。這兩種酶催化花青素生物合成的最后兩個步驟,因此是藍色素生物合成的關(guān)鍵酶。

睡蓮在全球范圍均有分布,包括寒冷地區(qū)(中國北部及加拿大北部),這與其他ANA被子植物類群不同,無油樟屬僅在太平洋島嶼有分布,而八角茴香目僅在溫帶和熱帶地區(qū)有分布。與無油樟屬及一些被子植物相比,我們發(fā)現(xiàn)藍星睡蓮中與免疫和應(yīng)激反應(yīng)相關(guān)的基因明顯有擴張,包括編碼核苷酸結(jié)合富亮氨酸重復(fù)(NLR)蛋白、蛋白激酶和WRKY轉(zhuǎn)錄因子基因(Extended Data Fig. 9, Supplementary Note 8)。這些基因數(shù)量的增加可能使睡蓮適應(yīng)了全球各種生態(tài)棲息地。

綜上所述,藍星睡蓮(N. colorata)基因組為比較基因組學(xué)和解決被子植物間的系統(tǒng)發(fā)育關(guān)系提供了參考。它還揭示了睡蓮科祖先發(fā)生的一次全基因組復(fù)制事件,并提供了關(guān)于被子植物早期發(fā)育及進化的重要見解,涉及諸如花的發(fā)育、花的氣味和顏色等。

參考文獻:##

Zhang, L., Chen, F., Zhang, X. et al. The water lily genome and the early evolution of flowering plants. Nature 577, 79–84 (2020). https://doi.org/10.1038/s41586-019-1852-5

補充:

1、外群的選擇問題:

大多數(shù)的種系發(fā)生重建方法會產(chǎn)生無根樹,但是觀察樹的拓撲結(jié)構(gòu)無法識別樹根應(yīng)在哪一分支上。實際中,對于要證實哪一個分類單元的分支先于其他的分類單元,樹根必須確定。
在無根樹中設(shè)定一個根,最簡單的方法是在數(shù)據(jù)集中增加一個外群(outgroup)。 外群是一種分類操作單元,且有外部信息表明外群在所有分類分類群之前就已分化。合適的外群與待分析的分類群關(guān)系不能相距太遠,因為在比較關(guān)系較遠的物種時,系統(tǒng)發(fā)生的信號會降低,這是核苷酸替換飽和的結(jié)果。使用一個以上的外群通??梢赃M一步改善推導(dǎo)的樹狀拓撲的準(zhǔn)確度。
所謂的外類群就是與你研究的序列關(guān)系極為密切的序列,且外類群能很好的聚為一支(若外類群不止一條序列),若研究的是演化歷史,一般應(yīng)選擇比目標(biāo)序列具有較早進化歷史的序列作為外類群。
另一種可選的引入外群的方法是,使用兩套相同的、同時存在于待分析的所有分類操作單元中的并系同源基因。在這種方法中,第一個并系同源基因群中的基因可以成為第二個并系同源基因群中基因的外群。這種確定的系統(tǒng)已用于確定tree of life的第一層分支,樹根可以置于通向生命樹中細菌、古細菌以及真核細胞中任一分枝上。當(dāng)使用單一外群時,根可以置于通向外群的分支上。另外,若使用多個外群,根必須置于連接外群和內(nèi)群的分支上。
如果是鑒定物種,最好選一個外群。在缺少一個合適的外群時,根大約可以置于兩個分類操作單元間最長支的中點上。這種確定根的方法叫做中點定根(midpoint rooting),當(dāng)在樹中所有分支的進化速度大致相同而且實際的外群與其它分類群間的支的長度不太短時,這種方法相當(dāng)準(zhǔn)確,但是中點生根這種方法慎用,它有一個假設(shè)前提:假設(shè)兩個最不同的譜系以相同的速率進化。顯然,這個假設(shè)現(xiàn)實中很可能不成立。

2、直系同源基因(ORTHOLOGOUS GENE)和旁系同源基因(PARALOGOUS GENE)

在進化過程中,新基因通常來自事先存在的基因,新基因的功能從先前基因的功能進化而來。新基因的原材料來自基因組區(qū)域的重復(fù),這種重復(fù)可包括一個或多個基因。作為物種形成的伴隨事件而被重復(fù),并繼續(xù)保持相同功能的基因,稱為直系同源基因(orthologous gene)。新的基因功能可由在單個物種的基因組中發(fā)生的重復(fù)引起的。在一個基因組內(nèi)部的重復(fù)導(dǎo)致旁系同源基因(paralogous gene)。
Orthology VS Paralogy
Relation of sequences
Orthologs: similar sequences that have arisen due to a speciation event.
Functionality Retained.
Orthologs: members of a gene (protein) family in various organisms.
Paralogs: Similar sequences that have arisen due to a gene duplication event.
Paralogs are not necessarily to have the same or similar functions. Probably become pseudogenes.
Paralogs: members of a gene (protein) family within a species.
Xenologs: Similar sequences that have arisen out of horizontal transfer events.
Examples: Transformation; Conjugation; Transduction; Transgene


Orthology VS Paralogy

3、Bootstrap和Jackknife

所謂Bootstraping法 就是從整個序列的堿基(氨基酸)中任意選取一半,剩下的一半序列隨機補齊組成一個新的序列。這樣,一個序列就可以變成了許多序列,一個多序列組也就可以變 成許多個多序列組。根據(jù)某種算法(最大簡約性法、最大可能性法、除權(quán)配對法或鄰位相連法)每個多序列組都可以生成一個進化樹。將生成的許多進化樹進行比 較,按照多數(shù)規(guī)則(majority-rule)我們就會得到一個最“逼真”的進化樹。
Jackknife則是另外一種隨機選取序列的方法。它與Bootstrap法的區(qū)別是不將剩下的一半序列補齊,只生成一個縮短了一半的新序列。

4、姐妹群(sister group)

在分支分類學(xué)中具有一個不為其他分類單元所共有的祖先的兩個分類單元稱為姐妹群。姐妹群是由一個祖種通過分裂產(chǎn)生的一對分支,是建立系統(tǒng)發(fā)育系統(tǒng)的基本結(jié)構(gòu),根據(jù)近裔共性加以識別。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容