PlantBiMoE開源:輕量高效的植物基因組基礎(chǔ)模型

植物基因組里藏著大量調(diào)控元件和結(jié)構(gòu)信息,它們分布在編碼區(qū)和非編碼區(qū),參與轉(zhuǎn)錄起始、可變剪接、染色質(zhì)開放等關(guān)鍵過程。這些區(qū)域堿基組成不均、依賴關(guān)系長、交互復(fù)雜,傳統(tǒng)窗口式模型很難捕捉全局上下文。

高通量測序數(shù)據(jù)越來越多,物種越來越廣,我們急需一個能跨物種泛化、支持多任務(wù)學(xué)習(xí)的統(tǒng)一建??蚣?。

植物科學(xué)領(lǐng)域AI實操班“AI技術(shù)在農(nóng)作物育種研究中的應(yīng)用”高級研修班的通知

現(xiàn)有模型的兩難

AgroNT 是首個面向植物基因組的大規(guī)模預(yù)訓(xùn)練Transformer,在啟動子強度預(yù)測、剪接位點識別等任務(wù)上表現(xiàn)不錯。但參數(shù)量超過10億,資源消耗大,普通實驗室難以部署。而且它沿用標(biāo)準(zhǔn)BERT架構(gòu),沒有融入DNA特有的鏈對稱等結(jié)構(gòu)先驗。

后續(xù)PDLLMs系列做了輕量化嘗試,推理成本降下來了,也初步支持多任務(wù)。但多數(shù)采用單向建模,前饋模塊過于標(biāo)準(zhǔn)化,對功能密集且不對稱的區(qū)域表征能力有限。

PlantCaduceus結(jié)合了Mamba狀態(tài)空間建模和反向互補對稱,雙向表征有提升,但建模窗口限制在512bp,難以捕捉長程順式調(diào)控互作。

PlantBiMoE怎么做

華中科大和華中農(nóng)大團隊提出PlantBiMoE,一個輕量高效的植物基因組語言模型。核心是兩個設(shè)計:雙向Mamba和稀疏混合專家架構(gòu)。

雙向Mamba讓模型能同時編碼正向和反向鏈的信息,有效捕捉雙鏈結(jié)構(gòu)依賴。稀疏MoE通過路由機制為每個token激活部分專家網(wǎng)絡(luò),在控制計算量的同時提升模型表達能力。

模型共16層,嵌入維度512,總參數(shù)量116M,但每個token實際激活參數(shù)僅64M。上下文窗口支持32768bp,遠超AgroNT的6000bp和PDLLMs的2000bp,能更好建模長程依賴。

PlantBiMoE模型架構(gòu)

PlantBiMoE模型架構(gòu)

預(yù)訓(xùn)練數(shù)據(jù)來自42個代表性植物物種,涵蓋模式植物、蔬菜、水果、谷物、藻類等,總計254億堿基對。數(shù)據(jù)預(yù)處理采用固定長度切分、隨機重疊滑動、非標(biāo)準(zhǔn)堿基替換、高N含量過濾、反向互補增強等策略,訓(xùn)練集和測試集按染色體劃分,保證物種和染色體層面的獨立性。

預(yù)訓(xùn)練物種及大小

預(yù)訓(xùn)練物種及大小

任務(wù)評估更全面

研究團隊構(gòu)建了MPGB基準(zhǔn),整合了AgroNT的PGB和PDLLMs新增的組蛋白修飾、保守性識別、核心啟動子識別等任務(wù)。共11類任務(wù)、31個子數(shù)據(jù)集,覆蓋二分類、多分類、回歸、分割等任務(wù)類型,輸入序列長度從50bp到6000bp不等,涉及擬南芥、水稻、玉米、大豆等模式植物。

圖片

結(jié)果說話

在31個子數(shù)據(jù)集中,PlantBiMoE在20個上取得最優(yōu),11項任務(wù)中有9項平均性能最佳。

剪接位點、啟動子強度、終止子強度、組蛋白修飾、保守性識別、開放染色質(zhì)這6項任務(wù)的全部11個子數(shù)據(jù)集上,PlantBiMoE均優(yōu)于AgroNT和PlantDNAMamba。

LncRNA和染色質(zhì)可及性任務(wù)上,6個子數(shù)據(jù)集里有4個最優(yōu),任務(wù)平均得分也最高。

多聚腺苷酸化任務(wù)上,雖然PlantDNAMamba在4個子數(shù)據(jù)集上略優(yōu),但在Medicago truncatula子集上得分僅69.60,顯著低于AgroNT的94.57和PlantBiMoE的91.35,拉低了整體平均。

增強子區(qū)域和核心啟動子任務(wù)上,PlantBiMoE略遜于最優(yōu)模型,但在三個對比模型中穩(wěn)定排在第二。

跨物種泛化方面,染色質(zhì)可及性預(yù)測在玉米、高粱、擬南芥上AUC高且方差小,說明模型在不同物種間有較好的魯棒性。

圖片
圖片
圖片
圖片

訓(xùn)練細節(jié)

預(yù)訓(xùn)練采用單核苷酸t(yī)okenization,詞表包含ATCGN及特殊標(biāo)記共12個。目標(biāo)函數(shù)為掩碼語言建模,15%位置隨機掩碼,其中80%替換為[MASK],10%隨機替換,10%保持不變。

訓(xùn)練在8張A800-80G GPU上分布式進行,單卡batch size為4,8步梯度累積,有效batch size 256。使用AdamW優(yōu)化器,學(xué)習(xí)率線性預(yù)熱后余弦衰減,混合精度bf16訓(xùn)練,總耗時約166小時。

開源與價值

代碼已開源:https://github.com/HUST-Keep-Lin/PlantBiMoE

PlantBiMoE證明了基因組語言模型的效果不單純依賴參數(shù)規(guī)?;驍?shù)據(jù)量,架構(gòu)設(shè)計與數(shù)據(jù)質(zhì)量的協(xié)同更重要。雙向狀態(tài)空間建模加稀疏專家路由,為輕量高效的大模型設(shè)計提供了新思路。

對植物基因組注釋、調(diào)控機制解析、基因編輯靶點設(shè)計、合成生物學(xué)元件構(gòu)建等方向,PlantBiMoE都能提供可靠的序列表征基礎(chǔ)。

模型僅116M參數(shù),普通實驗室也能跑得動,降低了植物基因組大模型的使用門檻。

植物基因組研究正在進入大模型時代,輕量、高效、可泛化,可能是下一步的關(guān)鍵。PlantBiMoE邁出了扎實的一步。

植物科學(xué)領(lǐng)域AI實操班“AI技術(shù)在農(nóng)作物育種研究中的應(yīng)用”高級研修班的通知

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容