Evo 2基因組語言模型:跨物種功能變異預測—在家畜應用測試

一、背景:從語言模型到基因組理解

近年來,生物信息學正經(jīng)歷一場由人工智能驅(qū)動的范式轉(zhuǎn)變。繼自然語言模型(如GPT系列)在文本領(lǐng)域取得革命性突破之后,類似的“基因組語言模型(Genomic Language Model, GLM)”開始在生命科學中嶄露頭角。這類模型通過在大規(guī)模DNA序列上進行自監(jiān)督學習,從而“讀懂”核苷酸序列中的統(tǒng)計規(guī)律、保守性與功能特征。

其中,Evo 2(Brixi et al., 2025)被認為是目前規(guī)模最大、性能最全面的基因組語言模型之一。它基于9.3 萬億個堿基(token)訓練,涵蓋所有生命域(bacteria、archaea、eukaryotes),采用改進的StripedHyena 2架構(gòu),能夠在單堿基分辨率下處理長達 1 Mbp 的DNA序列。

Evo 2的核心創(chuàng)新在于:

    1. 同時支持生成式(next-token prediction)與判別式(likelihood scoring)任務;
    1. 以零樣本分類(zero-shot)與嵌入向量(embedding)線性探測兩種方式實現(xiàn)變異功能預測;
    1. 擁有強大的跨物種泛化能力,為農(nóng)畜遺傳學帶來新的應用可能。

二、研究概述:Evo 2在家畜功能變異分類中的驗證

Jiang et al.( 2025, 預印版)利用Evo 2對八種家畜(牛、羊、豬、馬、狗、貓、雞、山羊)的功能性單核苷酸變異(SNV)進行了系統(tǒng)評估,建立了首個跨物種功能變異分類框架。

研究以O(shè)MIA數(shù)據(jù)庫的721 個已知功能變異為陽性樣本,并采用兩種對照集策略:

  • Variant-type blind:隨機抽取全基因組SNP,不區(qū)分突變類型;

  • Variant-type matching:按突變類別(missense、stop-gain、splicing 等)匹配對照。

分析路線

image.png

主要結(jié)果:

  • 零樣本分類(zero-shot)
    Evo 2在無監(jiān)督條件下即可識別功能變異,AUROC = 0.934,AUPRC = 0.832。
    在八物種中,AUROC介于 0.824–0.954 之間(平均 0.909),表現(xiàn)穩(wěn)定。

  • 線性探測(linear probing)
    基于Evo 2嵌入的Lasso分類器在跨物種交叉驗證中表現(xiàn)良好,
    平均 AUROC = 0.921(blind),0.801(matching)。
    說明模型能有效區(qū)分同類型變異中的功能差異。

三、理論意義與應用潛力

主要分為三部分:


image.png

3.1 解決連鎖不平衡下的因果變異定位難題

在家畜基因組中,廣泛存在長程連鎖不平衡(LD),使得傳統(tǒng)GWAS難以區(qū)分因果位點與完全連鎖的非功能變異。Evo 2的序列驅(qū)動分析不依賴群體關(guān)聯(lián)信號,能在完美LD條件下識別功能性差異,為精細定位(fine-mapping)提供了獨立信息源。

3.2 評估種畜的突變

通過匯總個體全基因組的Evo 2功能打分,可以計算整體deleterious mutation load,為種畜選拔提供風險評估參考。該方法超越傳統(tǒng)“已知有害突變篩查”,可捕獲新的潛在有害等位基因。

3.3 整合至基因組預測框架

Evo 2的嵌入可作為序列層面的協(xié)變量納入GEBV模型,實現(xiàn)混合基因組預測(hybrid genomic prediction)。與傳統(tǒng)0/1/2 編碼相比,這種嵌入能表征序列結(jié)構(gòu)、保守性及調(diào)控關(guān)系,有望提高對復雜性狀的預測準確度。

四、技術(shù)限制與計算挑戰(zhàn)

盡管Evo 2具備卓越性能,其在大規(guī)模育種應用中仍受限于計算資源。
處理單個 8,192 bp 序列約需 0.5 秒 (H100 GPU),若應用于全基因組(~2.5 Gbp)則需約 85 小時/個體。因此,目前更現(xiàn)實的策略是:

  • 聚焦GWAS或候選區(qū)域的區(qū)域性分析;

  • 針對核心種畜開展重點個體評估;

  • 或構(gòu)建混合模型,結(jié)合傳統(tǒng)SNP效應與Evo 2局部嵌入。

五、與DeepMind AlphaGenome的對比:兩種基因組智能的路徑差異

PS: AlphaGenome最近被發(fā)表,也是專為功能預測設(shè)計,小編自己整理兩者比較的差異


image.png

六、未來展望:從模型性能到育種實踐的融合

6.1 構(gòu)建跨物種功能變異基準(Benchmark)

當前AlphaGenome的調(diào)控預測主要局限于人類和模式動物,而Evo 2則展示了在家畜中的廣泛適用性。未來可通過統(tǒng)一跨物種基準測試集(Cross-species Functional Benchmark)比較二者在變異分類、調(diào)控預測與遷移學習方面的性能。

6.2 多模態(tài)整合與遷移學習

AlphaGenome的多維輸出(ATAC、RNA、Hi-C 等)可為Evo 2嵌入提供生物學解釋層;Evo 2的序列表征可反哺AlphaGenome的跨物種遷移模塊。兩者的結(jié)合或?qū)⒋呱?strong>“通用基因組智能體(Universal Genomic Agent)”。

6.3 計算效率與模型壓縮

針對Evo 2的計算瓶頸,可探索參數(shù)剪枝、知識蒸餾及低秩近似以提升推理效率,從而使其在育種評估中實現(xiàn)常規(guī)化部署。

6.4 倫理與可持續(xù)育種

隨著AI參與育種決策,對突變與遺傳多樣性的理解需同步提升。未來應建立AI輔助遺傳改良的倫理與監(jiān)管框架,確保技術(shù)收益與物種健康的平衡。

七、結(jié)語

Evo 2的出現(xiàn)標志著基因組學進入“可讀懂DNA語義”的時代。其在多物種功能變異識別中的出色表現(xiàn),為農(nóng)畜遺傳改良提供了新的計算工具和理論支撐。盡管仍受限于計算資源與機制解釋,Evo 2的成功驗證了基于序列的AI模型在超越群體關(guān)聯(lián)分析、揭示功能本質(zhì)上的巨大潛力。

與之相對,DeepMind AlphaGenome在多模態(tài)調(diào)控建模與人類功能注釋中展現(xiàn)出強勁實力。二者代表了基因組AI的兩條互補路徑:

  • Evo 2 —— 從語言角度理解基因組的“句法”;

  • AlphaGenome —— 從功能角度解讀基因組的“語義”。

未來,當這兩類模型在開放生態(tài)中實現(xiàn)互補與融合,跨物種基因功能預測與精準育種將迎來全新的智能化階段。與此同時,構(gòu)建以農(nóng)業(yè)組學與表型數(shù)據(jù)為核心的專用大語言模型,有望進一步推動動植物復雜性狀解析與智能化育種決策的革新。

參考:

https://doi.org/10.21203/rs.3.rs-7579108/v1

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容