【豆科基因組】綠豆Mungbean, Vigna radiata蘇綠基因組預(yù)印

一、來(lái)源

High-quality genome assembly, annotation and evolutionary analysis of the mungbean (Vigna radiata) genome. November 2020.
DOI:10.22541/au.160587196.63922177/v1

單位:江蘇農(nóng)科院

主要結(jié)果:

  • 通過(guò)Nanopore+Illumina+HiC組裝蘇綠基因組,組裝大小473.67,contig N50=11.3Mb,scaffold N50=42.4。
  • 52.8%的重復(fù)序列,LTRs占33.9%。
  • 預(yù)測(cè)了33924個(gè)基因,95.7%注釋率。
  • 綠豆與其關(guān)系最近的小豆分化時(shí)間約11.66萬(wàn)年前,綠豆特有基因家族277個(gè),其中18個(gè)正選擇基因。

綠豆研究進(jìn)展:

  • 中綠VC1973A基因組草圖
  • 葉發(fā)育
  • 白粉病抗性powdery mildew resistance
  • 豆象抗性bruchid resistance
  • 耐鹽 salinity tolerance
  • 基因組多樣性和GWAS(GBS),種皮光澤

二、結(jié)果

測(cè)序組裝

蘇綠一號(hào),測(cè)序約122.9Gb數(shù)據(jù),深度259.5X,其中Oxford Nanopore (142.4X)。
組裝先使用canu糾正reads,再用wtdbg2組裝。原始組裝結(jié)果用Racon對(duì)nanopore reads 進(jìn)行三輪糾錯(cuò),使用Pilon利用二代測(cè)序數(shù)據(jù)進(jìn)行3輪糾錯(cuò)。組裝大小473.67 Mb,359 contigs, N50 =11.32 Mb。
HiC-Pro利用唯一比對(duì)reads鑒定有效和無(wú)效互作,使用LACHESIS進(jìn)行聚類、排序和定向,最后掛載11條染色體?;蚪M大小470.45Mb(掛載率99.32%,組裝率87.8%)。


image.png
image.png

a-e 代表 the distribution of FPKM, gene density, density of Copia
retrotransposable elements, density of Gypsy retrotransposable elements and GC density, respectively, with
densities calculated in 200-kb windows.
f 代表 syntenic blocks.

組裝評(píng)價(jià)

三方面評(píng)估:

  • 組裝連續(xù)性和覆蓋度。二代測(cè)序reads比對(duì)99.07%;CEGMA評(píng)估連續(xù)性449個(gè)(98.03%)核心保守基因。
  • 完整性。BUSCO評(píng)估,92.43%。
  • HiC聚類熱圖。

編碼基因預(yù)測(cè)

三個(gè)來(lái)源:

  • ab initio :Genscan, Augustus (v2.4), GlimmerHMM (v3.0.4), GeneID (v1.4) and SNAP
  • homology-based:GeMoMa (v1.3.1)
  • unigene-based prediction :Hisat (v2.0.4) and
    Stringtie (v1.2.3), and PASA (v2.0.2)組裝,TransDecoder (v2.0) and GeneMarkST(v5.1)預(yù)測(cè)。

EVM整合,PASA優(yōu)化。共預(yù)測(cè)33,924個(gè)蛋白編碼基因,20,446個(gè)三種證據(jù)都有。

基因功能注釋

BLAST (v2.2.31) against NR, KOG,
GO, KEGG and TrEMBL database, performed KEGG pathway。
共32,470個(gè)基因注釋(95.71%)。
InterProScan(包括Prosite, PRINTS, PFAM, ProDom, Smart, TIGRFAMs, SignlP, Trans memberane等)進(jìn)行motif注釋,共注釋2,765 motifs and 35,154 domains。

非編碼RNA注釋

microRNA, rRNA使用Rfam數(shù)據(jù)庫(kù);
tRNA使用tRNAscan-SE。
最后鑒定86 miRNA, 352 rRNA and 653 tRNA belonging to 23, 4 and 22 families respectively。

假基因預(yù)測(cè)

假基因序列與功能基因類似,但由于突變丟失了功能。
使用BLAT將預(yù)測(cè)蛋白序列尋找可能的同源基因序列,再用GeneWise尋找不成熟的終止密碼和基因序列上的移碼突變,從而獲得假基因,共4320個(gè),平均長(zhǎng)度2237bp。

重復(fù)序列注釋

使用Repbase庫(kù)和從頭預(yù)測(cè)的重復(fù)庫(kù)(采用LTR FINDER和RepeatModeler),數(shù)據(jù)庫(kù)鑒定采用PASTEClassier,合并以上兩個(gè)重復(fù)庫(kù)作為最終庫(kù)。RepeatMasker注釋。共52.83%,重復(fù)元件長(zhǎng)度46.4 Kb - 215.1 Mb。大部分是LTR(33.92%),包括56.6% Gypsy LTRs, 39.77% Copia LTRs and 3.63% other types of LTRs。

使用MISA檢測(cè)簡(jiǎn)單串聯(lián)重復(fù)(SSRs),共224,409 SSRs (136,045 mono-, 56,033 di-, 28,959
tri-, 1,977 tetra-, 1,098 penta-, and 297 hexa-nucleotide repeats)。全長(zhǎng)3,252,656 bp(~0.69%)

進(jìn)化分析和分歧時(shí)間估計(jì)

從綠豆和10個(gè)近緣物種(Vigna radiata , cowpea, common bean, soybean, Vigna angularis , Lablab purpureus ,Medicago
truncatula , Lotus japonicus , Vigna subterranea and Arabidopsis thaliana)中OrthoMCL軟件鑒定單拷貝直系同源基因,基于該數(shù)據(jù)集采用MUSCLE+MEGA+PHYML構(gòu)樹。

使用Mcmctree通過(guò)最大似然樹估計(jì)分歧時(shí)間,并用化石證據(jù)矯正。


image.png
image.png

全基因組復(fù)制

為研究綠豆進(jìn)化,將之與其他4種雙子葉植物(Vigna radiata, Arabidopsis thaliana(Arabidopsis)比較,基于兩物種間或物種內(nèi)的成對(duì)同源基因計(jì)算4DTv (4-fold degenerate synonymous sites of the third codons)。

Vigna radiata vs Arabidopsis thaliana有分化峰值,Vigna radiata vs common bean存在低峰。表明綠豆和擬南芥分化的時(shí)間比綠豆和普通豆(菜豆)分化更早。


image.png

LTR插入時(shí)間估計(jì)

采用突變率來(lái)估計(jì)LTR插入時(shí)間。蘇綠中的LTR插入事件不是很活躍。


image.png

正選擇基因

通過(guò)評(píng)估單拷貝基因的Ka/Ks來(lái)檢測(cè)正選擇基因。共檢測(cè)到18個(gè)基因。GO富集在membrane-enclosed lumen 和cell junction。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容