20211017讀書(shū)筆記


Gapless indica rice genome reveals synergistic contributions of active transposable elements and segmental duplications to rice genome evolution

https://doi.org/10.1016/j.molp.2021.06.017


文章截圖

研究背景

? ? 基因組組裝的最終目標(biāo)是高準(zhǔn)確且無(wú)gap的基因組。而在植物基因組中,轉(zhuǎn)座子(TEs)、著絲粒和片段復(fù)制(SDs)等重復(fù)序列十分普遍,且在基因組進(jìn)化中有非常重要的作用。這些重復(fù)序列是是基因組組裝的難點(diǎn)。

? ? 長(zhǎng)讀段測(cè)序技術(shù)的發(fā)展使得基因組組裝的連續(xù)性大大提高;Bionano、Hi-C、10X Genomics技術(shù)的出現(xiàn),提高了組裝的連續(xù)性。技術(shù)的發(fā)展使獲得高準(zhǔn)確且無(wú)間斷的基因組成為可能。因此,作者提出了一種新的無(wú)gap的組裝方法。

組裝方法


組裝方法示意圖

????A.使用Hifiasm(version0.12)對(duì)來(lái)自NCBI網(wǎng)站SRA數(shù)據(jù)庫(kù)中明輝63的40.7 Gb HiFi reads進(jìn)行初步組裝。

????B.依據(jù)indica rice參考基因組R498 ,使用NUCmer或MCScan將contigs錨定到染色體上?;驁D譜、Hi-C等方法也可以用于錨定contigs。

????C.通過(guò)每個(gè)contig位置的回帖,每個(gè)染色體由一系列的contig和gap表示。針對(duì)剩余的gap,利用Hifiasm生成的讀段重疊信息進(jìn)一步重構(gòu)了關(guān)系圖(Fig1C),識(shí)別出每個(gè)gap之間所有可能的路徑,然后為每個(gè)gap選擇重疊最多的路徑,得到了每條染色體從起點(diǎn)到終點(diǎn)的路徑。

????通過(guò)三步操作,最終可以獲得無(wú)gap的indica rice基因組。

評(píng)價(jià)方法

評(píng)價(jià)填補(bǔ)的gap部分

????首先,作者核對(duì)了Illumina雙端測(cè)序和PacBio HiFi 測(cè)序的覆蓋率,結(jié)果是兩種方法都可以均勻映射到gap區(qū)域。之后,作者使用Pilon 和Racon分別使用Illumina和PacBio進(jìn)行兩輪校正。最終基因組MH63KL1組裝成12個(gè)contigs,總長(zhǎng)397.71 Mb, contig N50大小31.93 Mb。

與其他高質(zhì)量基因組比較

????作者使用BWA、samtools、GATK等方法,將MH63KL1與其他15個(gè)高質(zhì)量的水稻基因組進(jìn)行比較,結(jié)論是MH63KL1的作圖效率更高,覆蓋度更低;MH63KL1包含更少的SNPs,代表重復(fù)序列更高的完整度與更少的組裝錯(cuò)誤。之后,作者使用Benchmarking Universal SingleCopy Orthologs (BUSCO)評(píng)估基因區(qū)域的完整性,而MH63KL1是16個(gè)基因組中完整度最高的。

評(píng)價(jià)共線(xiàn)性

????作者使用NUCmer分析MH63KL1與MH63RS3、R498、ZS97RS3和IRGSP-1.0的共線(xiàn)性,有高度同線(xiàn)性。之后,作者將MH63KL1與GenBank中BACs進(jìn)行比對(duì),結(jié)果是所有BAC序列都成功比對(duì),覆蓋率超過(guò)90%。

SDs與進(jìn)化關(guān)系

不平衡分布

????作者利用SEDEF識(shí)別了MH63KL1中長(zhǎng)達(dá)92.21Mb的SDs區(qū)域(Fig2A),發(fā)現(xiàn)chr4、chr10、 chr11、chr12的SDs區(qū)域更多,chr1、chr2、chr3的SDs區(qū)域更少。

SDs區(qū)域與功能進(jìn)化的關(guān)系

????作者認(rèn)為,在一個(gè)待測(cè)組織中顯著高水平表達(dá)的基因?qū)?,與 sub- or neo-functionalized潛在相關(guān),這些基因?qū)ΨQ(chēng)為AEDs(asymmetrically expressed duplicates)。

????作者使用BLASTP識(shí)別SDs區(qū)域中的旁系同源基因,共識(shí)別6869對(duì),其中2646對(duì)互為best hits。研究這2646對(duì)基因?qū)Πl(fā)現(xiàn)991對(duì)AEDs,且隨著Ks值增加,AEDs數(shù)量在增加,可認(rèn)為SDs與功能進(jìn)化有關(guān)聯(lián)(Fig2C&D)。

????作者使用KEGG路徑分析,也印證了上述觀點(diǎn)(Fig2B)。

SDs的識(shí)別與其對(duì)進(jìn)化的影響

活躍的TEs與進(jìn)化的關(guān)系

????作者在MH63KL1中識(shí)別了158.30Mb的TEs,其中近70%是LTR因子。作者根據(jù)每個(gè)LTR-RT末端LTRs差異,計(jì)算LTR-RT的插入時(shí)間。結(jié)果是在大約150萬(wàn)年前indicajaponica品種LTR-RTs都有劇烈擴(kuò)展。然而,50萬(wàn)年內(nèi)indica基因組開(kāi)始顯著擴(kuò)展,而LTR-RTs的擴(kuò)展可能仍在進(jìn)行中。這表明indica中的TEs更加活躍。在低表達(dá)的重復(fù)基因之間,各類(lèi)型TEs的豐度較高,證明活躍的TEs可能在indica的馴化中發(fā)揮了重要作用。


學(xué)習(xí)心得

????這篇文章開(kāi)辟了一種基于三代測(cè)序技術(shù)的無(wú)gap組裝方式,提高了基因組組裝的完整度。讀完文章之后,我了解了許多關(guān)于基因組的評(píng)價(jià)角度與評(píng)價(jià)方法,也看到作者針對(duì)SDs區(qū)域與TEs區(qū)域進(jìn)行的研究,通過(guò)計(jì)算Ks值、KEGG路徑分析、計(jì)算插入時(shí)間等方法,推測(cè)對(duì)應(yīng)區(qū)域在功能進(jìn)化中的作用。

? ? 文章的后半部分針對(duì)SDs區(qū)域中NBS-LRR、cZOGTs等基因進(jìn)行了詳細(xì)解析,通過(guò)繪制系統(tǒng)發(fā)生樹(shù)、熱圖等方式,展示了SDs區(qū)域內(nèi)基因與強(qiáng)化抗病性狀的關(guān)聯(lián)。

? ? 提高基因組組裝準(zhǔn)確度是當(dāng)前生物學(xué)研究的重要課題,技術(shù)的不斷推進(jìn),使得研究不斷向準(zhǔn)確組裝基因組靠近。從多個(gè)角度評(píng)價(jià)新組裝的基因組,才能向他人證明基因組的可信程度。準(zhǔn)確組裝基因組,是為了更好地解決生物學(xué)問(wèn)題,為研究生物的起源、馴化、基因功能等提供數(shù)據(jù)基礎(chǔ)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容