Genome Research | 上海交大&農(nóng)科院作科所徐建龍:基于三代測(cè)序數(shù)據(jù)的水稻泛基因組構(gòu)建及分析
Long-read sequencing of 111 rice genomes reveals significantly larger pan-genomes
該研究通過(guò)引入一系列新方法處理長(zhǎng)讀長(zhǎng)測(cè)序,構(gòu)建了針對(duì)三代測(cè)序(TGS)數(shù)據(jù)的水稻泛基因組構(gòu)建方法。與水稻參考基因組日本晴相比,新方法從105 個(gè)栽培稻(OS)構(gòu)建的泛基因組包含 604 Mb 的新序列,比此前由~3000 個(gè)栽培稻品種二代測(cè)序數(shù)據(jù)(SGS)構(gòu)建的泛基因組(~270Mb新序列)更全面。其中,重復(fù)序列是新序列的主要組成部分。加上6個(gè)野生稻(OR)品種,水稻泛基因組比現(xiàn)有參考基因組多879 Mb新序列和19,000個(gè)新基因。此外,該研究還為所有代表性水稻群體創(chuàng)建了9個(gè)高質(zhì)量的參考基因組,包括 5 個(gè)無(wú)間隙參考基因組。
為了探究測(cè)序技術(shù)對(duì)泛基因組構(gòu)建及分析的影響,該研究分別比較了75個(gè)水稻品種的二代和三代測(cè)序數(shù)據(jù)構(gòu)建的泛基因組及其基因的存在和缺失結(jié)果(基因PAV)。
進(jìn)一步對(duì)栽培稻的基因PAV與表型進(jìn)行了關(guān)聯(lián)分析,檢測(cè)到14,471個(gè)顯著的基因PAV和表型的關(guān)聯(lián)。例如LOC_Os01g27930(一種反轉(zhuǎn)錄轉(zhuǎn)座子蛋白)的缺失與籽粒長(zhǎng)寬比增加相關(guān),而它的存在也與籽粒寬度增加相關(guān)。
點(diǎn)評(píng):水稻研究真的是太卷卷卷了?。?!估計(jì)這篇文章也是受到了去年水稻泛基因組Cell文章的沖擊。
Plant Com|中國(guó)農(nóng)科院作科所韓龍植&北京大學(xué)何航:秈稻血緣滲入對(duì)粳稻遺傳改良的貢獻(xiàn)
Genomic insights on the contribution of introgressions from Xian/indica to the genetic improvement of Geng/japonica rice cultivars
粳稻基因組成分演變:816份不同時(shí)期代表性粳稻品種重測(cè)序+已發(fā)表的5500份水稻測(cè)序數(shù)據(jù),1980年前、1980-1990年代、2000年后粳稻品種基因組中秈稻血緣分別占1.7%、3.3%和6.9%,粳稻育種改良過(guò)程中秈稻血緣比例逐漸提高;秈稻血緣的導(dǎo)入貢獻(xiàn)了一些粳稻品種中缺乏的優(yōu)異等位基因,從基因組層面反映了我國(guó)粳稻的改良?xì)v史。
秈稻血緣滲入對(duì)粳稻性狀改良的貢獻(xiàn):來(lái)自3個(gè)不同秈稻亞群的血緣向粳稻品種中的滲入持續(xù)增加,秈稻血緣的滲入使粳稻的重要性狀發(fā)生了顯著變化,如稻瘟病抗性提高、每穗粒數(shù)增加、單株穗數(shù)減少、株型由多穗型向重穗大穗型轉(zhuǎn)變。還發(fā)現(xiàn)與株型、產(chǎn)量和抗病蟲(chóng)性相關(guān)基因的等位基因由秈稻滲入到粳稻中。
調(diào)控水稻穗粒數(shù)新基因Gnd5為滲入的靶基因:利用全基因組關(guān)聯(lián)分析,鑒定了一個(gè)調(diào)控水稻穗粒數(shù)的新基因Gnd5,該基因編碼GRAS家族的轉(zhuǎn)錄因子,與野生型相比,Gnd5敲除突變體的穗粒數(shù)顯著減少(圖 2)。研究發(fā)現(xiàn),與早期育成品種相比,Gnd5基因秈型優(yōu)勢(shì)單倍型Hap2頻率在中、后期育成品種中不斷提高,說(shuō)明Gnd5基因是滲入的靶基因,對(duì)育種具有重要的應(yīng)用價(jià)值。
3個(gè)代表性粳稻系譜中優(yōu)勢(shì)單倍型的利用模式:研究系譜中穗粒數(shù)相關(guān)基因單倍型的利用模式,發(fā)現(xiàn)多基因的優(yōu)勢(shì)單倍型聚合利用存在較強(qiáng)的系譜背景特異性。
點(diǎn)評(píng):鄧興旺和何航老師前年才發(fā)表兩系三系的滲入,現(xiàn)在又來(lái)秈稻滲入粳稻。
PBJ | 四川農(nóng)大盧艷麗:預(yù)測(cè)植物蛋白質(zhì)點(diǎn)突變功能效應(yīng)的機(jī)器學(xué)習(xí)工具PPVED
PPVED: A machine learning tool for predicting the effect of single amino acid substitution on protein function in plants
利用UniProt/Swiss-Prot、NCBI/PubMed等數(shù)據(jù)庫(kù)資源,整合了一個(gè)植物蛋白質(zhì)點(diǎn)突變數(shù)據(jù)庫(kù),一共包含12,865個(gè)SAAS,并將其隨機(jī)劃分為基準(zhǔn)數(shù)據(jù)集和獨(dú)立數(shù)據(jù)集?;诨鶞?zhǔn)數(shù)據(jù)集,從蛋白質(zhì)序列、結(jié)構(gòu)與功能等層面出發(fā),廣泛采集了1,215種表征SAAS的特征信息,使用自行設(shè)計(jì)的特征選擇管道篩選出48種重要的特征。
基于這48種特征,分別應(yīng)用隨機(jī)森林、極端梯度提升、支持向量機(jī)以及前饋神經(jīng)網(wǎng)絡(luò)等算法,構(gòu)建了15種機(jī)器學(xué)習(xí)模型。評(píng)估結(jié)果表明,以極端梯度提升算法構(gòu)建的模型(命名為植物蛋白質(zhì)變異效應(yīng)檢測(cè)器,Plant Protein Variation Effect Detector,PPVED)性能最優(yōu),在基準(zhǔn)數(shù)據(jù)集上的預(yù)測(cè)準(zhǔn)確度和曲線下面積分別為0.872和0.940,在獨(dú)立數(shù)據(jù)集上分別為0.856和0.931。
從三種角度進(jìn)一步驗(yàn)證了PPVED的預(yù)測(cè)能力。首先,比較了PPVED與6個(gè)廣受歡迎的現(xiàn)有工具(基于人類SAAS數(shù)據(jù)而開(kāi)發(fā))的性能;其次,將PPVED預(yù)測(cè)應(yīng)用于包含314個(gè)功能性SAAS和1,515個(gè)中性SAAS的數(shù)據(jù)集;最后,利用PPVED對(duì)擬南芥、玉米中的6個(gè)SAAS進(jìn)行預(yù)測(cè)和實(shí)驗(yàn)驗(yàn)證。
為了方便用戶使用PPVED,作者將PPVED部署成了在線Web服務(wù)(網(wǎng)站鏈接為http://www.ppved.org.cn)。
點(diǎn)評(píng):這才是生物信息從業(yè)者的正確姿勢(shì),點(diǎn)贊學(xué)習(xí)。
Plant Com | 新加坡南洋理工大學(xué)綜述:植物基因表達(dá)信息挖掘手段與方法
Exploiting plant transcriptomic databases: resources, tools, and approaches
本綜述精選出了一些提供獨(dú)特方法來(lái)研究基因功能的數(shù)據(jù)庫(kù),并為植物研究者們展示了如何從這些數(shù)據(jù)庫(kù)中挖掘信息,從而服務(wù)于其正在著眼的研究。

點(diǎn)評(píng):Plant Com今后要想和MP一樣有影響力,不能總發(fā)綜述灌水。