日韩午夜美腿精品AV,国产偷窥猎奇福利二区

植物基因組里藏著大量調(diào)控元件和結(jié)構(gòu)信息，它們分布在編碼區(qū)和非編碼區(qū)，參與轉(zhuǎn)錄起始、可變剪接、染色質(zhì)開放等關(guān)鍵過程。這些區(qū)域堿基組成不均、依賴關(guān)系長、交互復(fù)雜，傳統(tǒng)窗口式模型很難捕捉全局上下文。

高通量測序數(shù)據(jù)越來越多，物種越來越廣，我們急需一個能跨物種泛化、支持多任務(wù)學(xué)習(xí)的統(tǒng)一建?？蚣?。

植物科學(xué)領(lǐng)域AI實操班“AI技術(shù)在農(nóng)作物育種研究中的應(yīng)用”高級研修班的通知

現(xiàn)有模型的兩難

AgroNT 是首個面向植物基因組的大規(guī)模預(yù)訓(xùn)練Transformer，在啟動子強度預(yù)測、剪接位點識別等任務(wù)上表現(xiàn)不錯。但參數(shù)量超過10億，資源消耗大，普通實驗室難以部署。而且它沿用標(biāo)準(zhǔn)BERT架構(gòu)，沒有融入DNA特有的鏈對稱等結(jié)構(gòu)先驗。

后續(xù)PDLLMs系列做了輕量化嘗試，推理成本降下來了，也初步支持多任務(wù)。但多數(shù)采用單向建模，前饋模塊過于標(biāo)準(zhǔn)化，對功能密集且不對稱的區(qū)域表征能力有限。

PlantCaduceus結(jié)合了Mamba狀態(tài)空間建模和反向互補對稱，雙向表征有提升，但建模窗口限制在512bp，難以捕捉長程順式調(diào)控互作。

PlantBiMoE怎么做

華中科大和華中農(nóng)大團隊提出PlantBiMoE，一個輕量高效的植物基因組語言模型。核心是兩個設(shè)計：雙向Mamba和稀疏混合專家架構(gòu)。

雙向Mamba讓模型能同時編碼正向和反向鏈的信息，有效捕捉雙鏈結(jié)構(gòu)依賴。稀疏MoE通過路由機制為每個token激活部分專家網(wǎng)絡(luò)，在控制計算量的同時提升模型表達能力。

模型共16層，嵌入維度512，總參數(shù)量116M，但每個token實際激活參數(shù)僅64M。上下文窗口支持32768bp，遠超AgroNT的6000bp和PDLLMs的2000bp，能更好建模長程依賴。

PlantBiMoE模型架構(gòu)

PlantBiMoE模型架構(gòu)

預(yù)訓(xùn)練數(shù)據(jù)來自42個代表性植物物種，涵蓋模式植物、蔬菜、水果、谷物、藻類等，總計254億堿基對。數(shù)據(jù)預(yù)處理采用固定長度切分、隨機重疊滑動、非標(biāo)準(zhǔn)堿基替換、高N含量過濾、反向互補增強等策略，訓(xùn)練集和測試集按染色體劃分，保證物種和染色體層面的獨立性。

預(yù)訓(xùn)練物種及大小

預(yù)訓(xùn)練物種及大小

任務(wù)評估更全面

研究團隊構(gòu)建了MPGB基準(zhǔn)，整合了AgroNT的PGB和PDLLMs新增的組蛋白修飾、保守性識別、核心啟動子識別等任務(wù)。共11類任務(wù)、31個子數(shù)據(jù)集，覆蓋二分類、多分類、回歸、分割等任務(wù)類型，輸入序列長度從50bp到6000bp不等，涉及擬南芥、水稻、玉米、大豆等模式植物。

圖片

結(jié)果說話

在31個子數(shù)據(jù)集中，PlantBiMoE在20個上取得最優(yōu)，11項任務(wù)中有9項平均性能最佳。

剪接位點、啟動子強度、終止子強度、組蛋白修飾、保守性識別、開放染色質(zhì)這6項任務(wù)的全部11個子數(shù)據(jù)集上，PlantBiMoE均優(yōu)于AgroNT和PlantDNAMamba。

LncRNA和染色質(zhì)可及性任務(wù)上，6個子數(shù)據(jù)集里有4個最優(yōu)，任務(wù)平均得分也最高。

多聚腺苷酸化任務(wù)上，雖然PlantDNAMamba在4個子數(shù)據(jù)集上略優(yōu)，但在Medicago truncatula子集上得分僅69.60，顯著低于AgroNT的94.57和PlantBiMoE的91.35，拉低了整體平均。

增強子區(qū)域和核心啟動子任務(wù)上，PlantBiMoE略遜于最優(yōu)模型，但在三個對比模型中穩(wěn)定排在第二。

跨物種泛化方面，染色質(zhì)可及性預(yù)測在玉米、高粱、擬南芥上AUC高且方差小，說明模型在不同物種間有較好的魯棒性。

圖片

訓(xùn)練細節(jié)

預(yù)訓(xùn)練采用單核苷酸t(yī)okenization，詞表包含ATCGN及特殊標(biāo)記共12個。目標(biāo)函數(shù)為掩碼語言建模，15%位置隨機掩碼，其中80%替換為[MASK]，10%隨機替換，10%保持不變。

訓(xùn)練在8張A800-80G GPU上分布式進行，單卡batch size為4，8步梯度累積，有效batch size 256。使用AdamW優(yōu)化器，學(xué)習(xí)率線性預(yù)熱后余弦衰減，混合精度bf16訓(xùn)練，總耗時約166小時。

開源與價值

代碼已開源：https://github.com/HUST-Keep-Lin/PlantBiMoE

PlantBiMoE證明了基因組語言模型的效果不單純依賴參數(shù)規(guī)?；驍?shù)據(jù)量，架構(gòu)設(shè)計與數(shù)據(jù)質(zhì)量的協(xié)同更重要。雙向狀態(tài)空間建模加稀疏專家路由，為輕量高效的大模型設(shè)計提供了新思路。

對植物基因組注釋、調(diào)控機制解析、基因編輯靶點設(shè)計、合成生物學(xué)元件構(gòu)建等方向，PlantBiMoE都能提供可靠的序列表征基礎(chǔ)。

模型僅116M參數(shù)，普通實驗室也能跑得動，降低了植物基因組大模型的使用門檻。

植物基因組研究正在進入大模型時代，輕量、高效、可泛化，可能是下一步的關(guān)鍵。PlantBiMoE邁出了扎實的一步。

植物科學(xué)領(lǐng)域AI實操班“AI技術(shù)在農(nóng)作物育種研究中的應(yīng)用”高級研修班的通知

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

PlantBiMoE開源：輕量高效的植物基因組基礎(chǔ)模型

PlantBiMoE開源：輕量高效的植物基因組基礎(chǔ)模型

現(xiàn)有模型的兩難

PlantBiMoE怎么做

任務(wù)評估更全面

結(jié)果說話

訓(xùn)練細節(jié)

開源與價值

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

PlantBiMoE開源：輕量高效的植物基因組基礎(chǔ)模型

現(xiàn)有模型的兩難

PlantBiMoE怎么做

任務(wù)評估更全面

結(jié)果說話

訓(xùn)練細節(jié)

開源與價值

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av