前言
? ? ????小編要分享的這篇文章是2020年10月19發(fā)表在Nature Communications雜志上,很榮幸征得作者本人(北京林業(yè)大學(xué)林木分子設(shè)計(jì)高精尖創(chuàng)新中心博士生 聶帥)的同意寫(xiě)一篇解讀博客,在此表示感謝,小編水平有限,要是有解讀不準(zhǔn)確的地方歡迎廣大朋友指出。文章研究的是杜鵑花,主要做了三部分內(nèi)容:(1)基因組組裝注釋 (2)基因組進(jìn)化分析 (3)轉(zhuǎn)錄組數(shù)據(jù)表達(dá)分析。文章大體的研究思路和常見(jiàn)的基因組文章差不多,甚至沒(méi)有做常見(jiàn)的群體進(jìn)化分析,但是它盡然能發(fā)表在NC上,這和該文章的分析方法創(chuàng)新有關(guān),文章中用到了一些比較新的方法,并且得到了不錯(cuò)的結(jié)果,小編斷定該文章會(huì)出現(xiàn)很多的模仿者
摘要
????????杜鵑花科(Ericaceae)的杜鵑(Azaleas)構(gòu)成了最多樣化的園藝植物之一,因其文化和經(jīng)濟(jì)重要性而聞名于世。本文中,作者報(bào)道了杜鵑(Rhododendron simsii)的染色體級(jí)別基因組組裝,而R. Simsii是目前栽培種杜鵑的主要祖先。基因組分析顯示在杜鵑花科植物的輻射擴(kuò)散之前發(fā)生過(guò)一次全基因組復(fù)制事件,并且該WGD事件可能作用于杜鵑開(kāi)花時(shí)間的基因組結(jié)構(gòu)。小范圍的基因復(fù)制事件作用于參與杜鵑花色素合成的基因家族的擴(kuò)張。作者通過(guò)詳細(xì)的時(shí)間序列基因共表達(dá)網(wǎng)絡(luò)分析,重構(gòu)了杜鵑花青素和類胡蘿卜素的代謝通路,并揭示了其潛在的調(diào)控網(wǎng)絡(luò)。MYB、bHLH和WD40轉(zhuǎn)錄因子可能共同作用于杜鵑中花青素積累的調(diào)控,尤其是花著色的起始階段;另外,WRKY轉(zhuǎn)錄因子在后期控制花的漸進(jìn)著色。本文的工作為理解開(kāi)花時(shí)間和花著色調(diào)控的遺傳機(jī)制提供了基石,可能有助于未來(lái)加速杜鵑花的選擇育種
引自:Nature Communications:杜鵑花基因組
背景
? ? ? ? 杜鵑花(Rhododendron simsii),又名映山紅,如下圖,雙子葉植物,我國(guó)十大名花之一,東亞特有,世界范圍上種植最廣泛的杜鵑花種類

? ? ? ? 盡管之前研究發(fā)表過(guò)兩版杜鵑花的基因組,但是都只做了二代測(cè)序,做到contig版本水平,該文章用了pacbio數(shù)據(jù),并且掛載了Hi-C,最后得到13條染色體,為杜鵑花關(guān)鍵性狀遺傳機(jī)制研究和基因組編輯等高效分子設(shè)計(jì)育種的建立提供了重要基礎(chǔ)
組裝注釋
如下圖
(1)與另外兩版發(fā)表的基因組比,該基因組用了pacbio數(shù)據(jù)和Hi-C數(shù)據(jù),最后掛載到13條染色體上,全基因組大小為528.6M,共552條scaffold
(2)contig N50為2.23M,BUSCO評(píng)估93.68%,LAI評(píng)估18.10,這幾個(gè)常見(jiàn)的基因組評(píng)估指標(biāo)都挺高的
(3)注釋得到34170個(gè)編碼基因,47.48%重復(fù)序列,rcRNA的注釋(482 tRNAs,64 rRNAs,211 miRNAs, 16 tRNAs and 158 snoRNAs),并給出了一些常用數(shù)據(jù)路能注釋到的基因的比例(NR,SwissProt,TrEMBL,Pfam,GO, KO)
注:基因組注釋主要包括重復(fù)序列注釋,基因結(jié)構(gòu)注釋,rcRNA注釋,重復(fù)序列注釋的時(shí)候作者詳細(xì)鑒定了LTR-TRs和solo-LTR,Gypsy 占基因組11.90% ,Copia 占基因組4.00%,整個(gè)注釋工作比較復(fù)雜,用到的軟件非常的多,小編這里不進(jìn)行講述

基因組進(jìn)化分析
(1)比較基因組分析

圖1a:文章用了15個(gè)物種加2個(gè)外群,總共聚類得到806個(gè)orthogroups單拷貝,然后構(gòu)建了ML樹(shù),并計(jì)算了一下分歧時(shí)間和擴(kuò)張收縮,將大分支Ericales上發(fā)生的WGD以及γ-WGT事件用不同的圖標(biāo)進(jìn)行了標(biāo)注,可以看到,文章研究的杜鵑花和另外兩種杜鵑花在14.54個(gè)百萬(wàn)年發(fā)生分化,在大約78個(gè)百萬(wàn)年的時(shí)候有一次WGD事件(使用軟件:OrthoFinder聚類,MUSCLE比對(duì),IQ-TREE建樹(shù),MCMCTree算分歧時(shí)間,CAFé計(jì)算擴(kuò)張收縮)
圖1b:計(jì)算Ks值推測(cè)WGD事件,下邊的圖計(jì)算了五個(gè)物種自己的Ks值,可以看到,在0.65的時(shí)候三種杜鵑花有一個(gè)峰值,在此發(fā)生的WGD事件,右上角的圖是葡萄與五個(gè)物種blast比對(duì)得到一對(duì)一的orthogroups,然后計(jì)算得到,計(jì)算方法見(jiàn)原文,推算成百萬(wàn)年后結(jié)果和下邊的圖大概是一致的
圖1c:13條染色體circos圖,由外之內(nèi)分別是Ogre(a family of Gypsy LTRRT)、Tekay(a family of?Gypsy LTR-RT)、Gypsy LTR-RT、Copia LTR-RT、基因密度、GC含量、共線性區(qū)塊,該圖特點(diǎn)是將每條染色體的著絲粒位置標(biāo)出來(lái)了,并且將共線性區(qū)塊分成了WGD(紅色)和WGT(藍(lán)色)(咨詢了作者,杜鵑花的共線性區(qū)塊基本上來(lái)自WGD和WGT,每個(gè)區(qū)塊到底是WGD還是WGT沒(méi)有一個(gè)標(biāo)準(zhǔn),存在主觀性,個(gè)人以為很多物種的共線性區(qū)塊不僅僅來(lái)自加倍化事件,作者在這拓展了很好的分析思路)
(2)基因復(fù)制分析
? ? 文章這里用了DupGen_finder軟件【DupGen_finder】,該軟件能將所有的基因分為五類復(fù)制基因:
WGD:全基因組復(fù)制
TD:串聯(lián)重復(fù)(相鄰的兩個(gè)重復(fù)基因)
PD:近端重復(fù)(相隔10個(gè)以內(nèi)基因的重復(fù)基因)
TRD:轉(zhuǎn)置重復(fù)(祖先和新基因座組成的重復(fù)基因)
DSD:分散重復(fù)(不相鄰也不共線性的重復(fù)基因)
SL:?jiǎn)慰截?/p>
對(duì)這幾類概念感興趣的可以參考:Gene duplication and evolution in recurring polyploidization–diploidization cycles in plants | Genome Biology | Full Text

? ? 可以看到,全基因組所有的基因有89%可以分為這五類,不足的是這個(gè)軟件分類得到的結(jié)果假陽(yáng)性也挺高的,該文章驗(yàn)證了假陽(yáng)性結(jié)果是可以接受的,小編認(rèn)為這篇文章最大的亮點(diǎn)也是最大的創(chuàng)新在于將基因分成了五類復(fù)制然后進(jìn)行接下里的分析

圖2a:五類復(fù)制的ka/ks值箱線圖,可以發(fā)現(xiàn)PD和TD的值較其他三類明顯要高,說(shuō)明這兩類復(fù)制基因發(fā)生了更多的正選擇,這兩類基因在植物應(yīng)對(duì)逆境環(huán)境中有重要的作用,尤其是TD,所以文章也重點(diǎn)關(guān)注了這兩類復(fù)制基因
圖2b:擴(kuò)張基因(6,754個(gè))、復(fù)制基因、正選擇基因(1657個(gè))的venn圖,先看最外去個(gè)大圈和最中間的黃色圈,這是正選擇(EGFs)和五類復(fù)制的venn圖,能看到每一類復(fù)制并且擴(kuò)張基因的個(gè)數(shù),然后看大圈里邊的小圈,黃線以外是正選擇和復(fù)制基因的交集,黃線以內(nèi)是正選擇和擴(kuò)張基因的交集,最后發(fā)現(xiàn)所有發(fā)生正選擇和擴(kuò)張的基因中有57.6%由TD和PD引起
圖2c:對(duì)發(fā)生擴(kuò)張基因的五類復(fù)制進(jìn)行了GO富集,可以看到,尤其是TD,富集得到一些重要的途徑
圖2d:通過(guò)FLOR-ID數(shù)據(jù)庫(kù)得到與花周期相關(guān)的基因家族序列,然后鑒定得到杜鵑花有424個(gè)基因與花周期相關(guān),圖片展示了五類復(fù)制中與花周期有關(guān)的基因個(gè)數(shù),最后發(fā)現(xiàn)了一個(gè)OG0000614基因家族(高親和性蔗糖轉(zhuǎn)運(yùn)蛋白,轉(zhuǎn)錄表達(dá)證明在花發(fā)育過(guò)程中持續(xù)高表達(dá))
轉(zhuǎn)錄組數(shù)據(jù)表達(dá)分析
(1)類胡蘿卜素和花青素/黃酮醇生物合成基因家族轉(zhuǎn)錄表達(dá)分析
????文章用了五個(gè)不同時(shí)期的花組織測(cè)了表達(dá)量(圖4a),大多數(shù)基因組文章測(cè)的是不同組織器官上的表達(dá),文章后邊用到了一個(gè)時(shí)間序列分析軟件來(lái)分析這有連續(xù)時(shí)間差異的五個(gè)時(shí)期表達(dá)量,這里也是文章的一個(gè)亮點(diǎn)和創(chuàng)新點(diǎn)

圖3:文章鑒定了和類胡蘿卜素、花青素/黃酮醇相關(guān)通路的基因家族,上圖是花青素/黃酮醇生物合成的三個(gè)重要途徑(Anthocyanin 花青素、Flavonoids類黃酮素、Flavonol黃酮醇)的基因家族表達(dá)分析,藍(lán)色I(xiàn)D標(biāo)簽是TD,棕色標(biāo)簽是PD復(fù)制,在所有這些和花青素/黃酮醇生物合成相關(guān)的基因中TD/PD占了42%,可見(jiàn)這兩類基因在花色調(diào)節(jié)過(guò)程中有很重要的作用。但是有意思的是,TD/PD在所有花周期基因家族中的占比很?。▓D2d),總共只有13.66%,花周期大多數(shù)由WGD引起。
?(2)時(shí)間序列共表達(dá)網(wǎng)絡(luò)分析
? ? 文章這里用了TO-GCNs(time-ordered genecoexpression networks)軟件,,時(shí)間序列基因共表達(dá)分析軟件,2019年發(fā)表在PNAS上,文章鏈接【TO-GCNs】,小編沒(méi)有用過(guò),聽(tīng)作者說(shuō)挺好用的,輸入文件為全部的表達(dá)基因和關(guān)注的表達(dá)基因,就能得到共表達(dá)網(wǎng)絡(luò)。文章發(fā)現(xiàn)了8067個(gè)高表達(dá)基因(618個(gè)轉(zhuǎn)錄因子TFs和7,449個(gè)結(jié)構(gòu)基因),用來(lái)構(gòu)建共表達(dá)網(wǎng)絡(luò)

圖4a:五個(gè)不同時(shí)期的花組織,又分成了三個(gè)大的時(shí)間段initial:T1 、transitional:T2,T3 、terminal:T4,T5
圖4b:TO-GCNs軟件做出來(lái)的時(shí)間序列表達(dá)網(wǎng)絡(luò),文章做的主要是618個(gè)TFs的共表達(dá)網(wǎng)絡(luò),分成了8個(gè)系列(結(jié)合表達(dá)熱圖定義成8個(gè)系列),粉色圈內(nèi)的點(diǎn)是五類轉(zhuǎn)錄因子家族(紫色點(diǎn):MYB,橄欖色點(diǎn):bHLH,綠寶石色:WD40,藍(lán)色:WRKY ,綠色:ERF)的共表達(dá)情況,可以看到尤其在initial階段共表達(dá)特別明顯
圖c:五個(gè)不同時(shí)期8個(gè)系列的表達(dá)熱圖,可以看到分成八個(gè)系列能夠很好的展示出時(shí)間序列共表達(dá)情況
(3)initial階段花色有關(guān)基因共表達(dá)網(wǎng)絡(luò)分析
? ? 上邊的時(shí)間序列共表達(dá)看到,在initial階段共表達(dá)特別明顯,所以文章對(duì)這個(gè)階段進(jìn)行了與花色有關(guān)基因的共表達(dá)分析,最后推測(cè)MYB、bHLH、WD40三個(gè)轉(zhuǎn)錄因子家族可能構(gòu)成復(fù)合體從而共同決定著花色形成

圖5a:類胡蘿卜素生物合成共表達(dá)網(wǎng)絡(luò)
圖5b:花青素/黃酮醇生物合成共表達(dá)網(wǎng)絡(luò)
圖5c:花青素/黃酮醇相關(guān)基因和MYB、bHLH、WD40基因家族的共表達(dá)
圖5d:F3H、MYB、bHLH、WD40在五個(gè)時(shí)期的表達(dá)熱圖
(4)terminal階段花色有關(guān)基因共表達(dá)網(wǎng)絡(luò)分析
? ? 除了initial階段,terminal階段也有很強(qiáng)的共表達(dá),所以最后還做了這個(gè)階段與花色有關(guān)的共表達(dá)分析

圖6a:花青素/黃酮醇生物合成共表達(dá)網(wǎng)絡(luò)
圖6b:F3H、MYB、C2H2、C3H、GRAS五類轉(zhuǎn)錄因子基因上游2kb DNA結(jié)合位點(diǎn)情況
圖6c:F3H基因的分級(jí)調(diào)控
注:對(duì)于各個(gè)表達(dá)網(wǎng)絡(luò)更深層次的研究意義小編也是看的很糊涂,大家感興趣可以仔細(xì)研究原文,能力有限,不再擴(kuò)展。
總結(jié)
(1)該研究結(jié)合 Pacbio 長(zhǎng)讀長(zhǎng)測(cè)序與Hi-C技術(shù),獲得了映山紅杜鵑高質(zhì)量的基因組組裝和功能注釋
(2)分析了基因組組成特點(diǎn),識(shí)別了開(kāi)花調(diào)控基因和花色相關(guān)代謝通路
(3)基于時(shí)間序列的基因共表達(dá)分析揭示出與花色決定相關(guān)等級(jí)基因調(diào)控網(wǎng)絡(luò),識(shí)別到 MYB, bHLH, 和 WD40 三個(gè)轉(zhuǎn)錄因子家族成員可能構(gòu)成復(fù)合體從而共同決定著花色形成