DeepCCR:基于基因組學(xué)的大規(guī)模深度學(xué)習(xí)方法改良水稻育種

近期,中國農(nóng)科院作物所聯(lián)合國內(nèi)多家單位,構(gòu)建了用于水稻基因組選擇的大規(guī)模中國栽培稻群體數(shù)據(jù)集,提出了配套的全基因組預(yù)測深度學(xué)習(xí)模型DeepCCR,為育種者快速、高效地培育優(yōu)良品種提供了有利工具。相關(guān)研究成果以簡訊方式在線發(fā)表在《Plant Biotechnology Journal》上。

[圖片上傳失敗...(image-92e664-1718722535132)]

水稻是世界一半人口的主食作物。傳統(tǒng)的基于表型和標(biāo)記輔助的選育方法已被用于水稻改良,但它們耗時、昂貴且勞動密集。因此,研究和實施提高水稻產(chǎn)量的新型育種策略是重中之重?;蚪M選擇(GS)為克服這些限制鋪平了道路。GS育種模型有效應(yīng)用的主要因素是構(gòu)建覆蓋目標(biāo)選擇材料的基因組多樣性的大規(guī)模訓(xùn)練種群。然而,在應(yīng)用水稻育種方案中對普通人群的實際實施仍處于起步階段,同樣尚未對各種性狀的基因組可預(yù)測性進行全面評估。

為了構(gòu)建具有普遍代表性的訓(xùn)練種群,構(gòu)建了中國第一個栽培稻種群(CCRP),該群體由來自中國25個省份的4015個水稻種質(zhì)組成,覆蓋了五個主要水稻種植區(qū),占中國水稻年總種植面積的99%以上(圖1a)。這些種質(zhì)包括1943個秈稻種質(zhì)和2072個粳稻種質(zhì),其中96%以上是栽培品種和育種系(圖1b)。聚類分析顯示,CCRP與3 K群體有很大不同。作者認(rèn)為,CCRP代表了中國幾乎所有水稻種植區(qū)水稻品種的特征和遺傳多樣性(圖1c,d)。為了準(zhǔn)確、系統(tǒng)地研究CCRP的表型,選擇了7個代表性地點連續(xù)兩年在中國五個水稻產(chǎn)區(qū)(圖1e)。產(chǎn)量性狀一直是水稻育種的主要關(guān)注點,本研究中感興趣的關(guān)鍵性狀包括抽穗期(HD)、株高(PH)、穗長(PL)、分蘗數(shù)(TN)、每穗粒數(shù)(GP)、結(jié)實率(SST)、粒長(GL)、粒寬(GW)、千粒重(TGW)和產(chǎn)量(Y),連續(xù)兩年收集表型數(shù)據(jù),以評估重復(fù)性并糾正數(shù)據(jù)集中的系統(tǒng)偏差(圖1f,g )。

為了滿足水稻育種中基因組預(yù)測的需要,對4015份種質(zhì)進行了重測序(圖1h-k)并提出了DeepCCR,一種基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)合雙向長短期記憶的深度學(xué)習(xí)方法,用于預(yù)測不同種植地點的表型值(圖1l,m)。為了評估 DeepCCR 的預(yù)測性能,將其與七個站點的四種最先進的方法(XGBoost、LightGBM、DNNGP 和 GBLUP)進行了比較。10倍交叉驗證結(jié)果表明,在所有比較方法中,DeepCCR的性能最好。具體而言,在GZL站點,DeepCCR對水稻性狀Y、HD、PH、PL、TN、GP、SSR、GL、GW和TGW的預(yù)測精度分別為79.7%、67.5%、75.3%、72.5%、66.9%、77.0%、73.2%、70.6%、64.3%和74.0%。DeepCCR的表現(xiàn)分別比第二名高出17.2%、11.7%、19.9%、12.8%、9.6%、12.6%、6.6%、12.8%、10.3%和12.6%。此外,與現(xiàn)有的先進方法相比,DeepCCR在均方誤差(MSE)方面也表現(xiàn)出優(yōu)異的性能。計算時間結(jié)果表明,DeepCCR的計算效率與其他模型相當(dāng)。

接下來,作者探討了模型在測試數(shù)據(jù)集上的預(yù)測性能,7個站點的10個性狀之間的比較結(jié)果也證明了DeepCCR的優(yōu)異性能(圖1n)。在HF位點,DeepCCR對Y、HD、PH、PL、GP、SSR、GL和TGW性狀具有較高的基因組可預(yù)測性(63.3%–78.2%),而對TN和GW的預(yù)測性能較低(圖1o)。GZL、TH、NC、WH、KM和NN站點的DeepCCR預(yù)測結(jié)果也表現(xiàn)出很高的準(zhǔn)確性。為了全面衡量DeepCCR的預(yù)測性能,計算了模型在七個站點的MSE,并獲得了令人滿意的結(jié)果。這表明該方法在對中國栽培水稻進行基因組預(yù)測方面做得更好。

此外,作者使用吉林省的主要品種吉粳816對DeepCCR的預(yù)測能力進行了外部驗證。DeepCCR在預(yù)測吉粳816數(shù)據(jù)集中的10個性狀方面表現(xiàn)出了出色的性能)。具體而言,預(yù)測的Y為1.71 kg(換算為564.3 kg/畝),預(yù)測的HD為102 d,與實際大田種植的預(yù)測值一致( https://www.ricedata.cn/ )??紤]到HD和Y是評估種質(zhì)生態(tài)適應(yīng)性的關(guān)鍵指標(biāo),繼續(xù)對剩余6個種植點的吉粳816性能進行驗證和預(yù)測。吉庚816的HD低于當(dāng)?shù)仄贩N的25%分位數(shù);然而,TH和KM的預(yù)測Y分別達到了當(dāng)?shù)仄贩N的中位數(shù)和25%分位數(shù)(圖1p)。這些結(jié)果表明,吉粳816對TH和KM表現(xiàn)出較好的適應(yīng)性,可作為優(yōu)良育種系輔助品種改良。結(jié)果還表明,DeepCCR模型在預(yù)測水稻新品種性狀方面表現(xiàn)出色。此外,該模型可以評估給定品種水稻最合適的種植地點。

[圖片上傳失敗...(image-86ff11-1718722535133)]

為了方便育種者使用該模型,我們構(gòu)建了一個包含DeepCCR模型的Web服務(wù)器(www.ai-breeder.com)。用戶只需提交標(biāo)準(zhǔn)的FASTQ或VCF文件,系統(tǒng)自動提供不同站點10個性狀的預(yù)測結(jié)果。

在這項研究中,我們構(gòu)建了第一個用于水稻基因組選擇的大規(guī)模中國水稻群體數(shù)據(jù)集。我們還進行了一項全面的多年、多地點表型調(diào)查,并開發(fā)了一個配套的深度神經(jīng)網(wǎng)絡(luò)模型來預(yù)測表型和適合種植的生態(tài)區(qū)域,以及一個易于使用的在線網(wǎng)絡(luò)服務(wù)器。本研究中提供的數(shù)據(jù)集和結(jié)果為育種者提供了一個框架,以快速有效地培育優(yōu)良的水稻品種,以解決全球糧食安全問題。此外,隨著數(shù)據(jù)集中材料數(shù)量的增加和多組學(xué)數(shù)據(jù)的更全面收集,DeepCCR 的預(yù)測性能將進一步提高,以加強作物改良計劃。

作科所副研究員馬小定、博士生王浩和北京博凱森生物科技有限公司吳盛陽為本文共同第一作者,作科所韓龍植研究員、閆燊助理研究員和安徽省農(nóng)科院水稻研究所周坤能研究員為論文的共同通訊作者。該研究得到了國家重點研發(fā)計劃、科技創(chuàng)新2030-重大項目和中國農(nóng)業(yè)科學(xué)院科技創(chuàng)新工程項目的資助。

原文鏈接:https://onlinelibrary.wiley.com/doi/10.1111/pbi.14384

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容