一、背景:從語言模型到基因組理解
近年來,生物信息學正經(jīng)歷一場由人工智能驅(qū)動的范式轉(zhuǎn)變。繼自然語言模型(如GPT系列)在文本領(lǐng)域取得革命性突破之后,類似的“基因組語言模型(Genomic Language Model, GLM)”開始在生命科學中嶄露頭角。這類模型通過在大規(guī)模DNA序列上進行自監(jiān)督學習,從而“讀懂”核苷酸序列中的統(tǒng)計規(guī)律、保守性與功能特征。
其中,Evo 2(Brixi et al., 2025)被認為是目前規(guī)模最大、性能最全面的基因組語言模型之一。它基于9.3 萬億個堿基(token)訓練,涵蓋所有生命域(bacteria、archaea、eukaryotes),采用改進的StripedHyena 2架構(gòu),能夠在單堿基分辨率下處理長達 1 Mbp 的DNA序列。
Evo 2的核心創(chuàng)新在于:
- 同時支持生成式(next-token prediction)與判別式(likelihood scoring)任務;
- 以零樣本分類(zero-shot)與嵌入向量(embedding)線性探測兩種方式實現(xiàn)變異功能預測;
- 擁有強大的跨物種泛化能力,為農(nóng)畜遺傳學帶來新的應用可能。
二、研究概述:Evo 2在家畜功能變異分類中的驗證
Jiang et al.( 2025, 預印版)利用Evo 2對八種家畜(牛、羊、豬、馬、狗、貓、雞、山羊)的功能性單核苷酸變異(SNV)進行了系統(tǒng)評估,建立了首個跨物種功能變異分類框架。
研究以O(shè)MIA數(shù)據(jù)庫的721 個已知功能變異為陽性樣本,并采用兩種對照集策略:
Variant-type blind:隨機抽取全基因組SNP,不區(qū)分突變類型;
Variant-type matching:按突變類別(missense、stop-gain、splicing 等)匹配對照。
分析路線

主要結(jié)果:
零樣本分類(zero-shot)
Evo 2在無監(jiān)督條件下即可識別功能變異,AUROC = 0.934,AUPRC = 0.832。
在八物種中,AUROC介于 0.824–0.954 之間(平均 0.909),表現(xiàn)穩(wěn)定。線性探測(linear probing)
基于Evo 2嵌入的Lasso分類器在跨物種交叉驗證中表現(xiàn)良好,
平均 AUROC = 0.921(blind),0.801(matching)。
說明模型能有效區(qū)分同類型變異中的功能差異。
三、理論意義與應用潛力
主要分為三部分:

3.1 解決連鎖不平衡下的因果變異定位難題
在家畜基因組中,廣泛存在長程連鎖不平衡(LD),使得傳統(tǒng)GWAS難以區(qū)分因果位點與完全連鎖的非功能變異。Evo 2的序列驅(qū)動分析不依賴群體關(guān)聯(lián)信號,能在完美LD條件下識別功能性差異,為精細定位(fine-mapping)提供了獨立信息源。
3.2 評估種畜的突變
通過匯總個體全基因組的Evo 2功能打分,可以計算整體deleterious mutation load,為種畜選拔提供風險評估參考。該方法超越傳統(tǒng)“已知有害突變篩查”,可捕獲新的潛在有害等位基因。
3.3 整合至基因組預測框架
Evo 2的嵌入可作為序列層面的協(xié)變量納入GEBV模型,實現(xiàn)混合基因組預測(hybrid genomic prediction)。與傳統(tǒng)0/1/2 編碼相比,這種嵌入能表征序列結(jié)構(gòu)、保守性及調(diào)控關(guān)系,有望提高對復雜性狀的預測準確度。
四、技術(shù)限制與計算挑戰(zhàn)
盡管Evo 2具備卓越性能,其在大規(guī)模育種應用中仍受限于計算資源。
處理單個 8,192 bp 序列約需 0.5 秒 (H100 GPU),若應用于全基因組(~2.5 Gbp)則需約 85 小時/個體。因此,目前更現(xiàn)實的策略是:
聚焦GWAS或候選區(qū)域的區(qū)域性分析;
針對核心種畜開展重點個體評估;
或構(gòu)建混合模型,結(jié)合傳統(tǒng)SNP效應與Evo 2局部嵌入。
五、與DeepMind AlphaGenome的對比:兩種基因組智能的路徑差異
PS: AlphaGenome最近被發(fā)表,也是專為功能預測設(shè)計,小編自己整理兩者比較的差異

六、未來展望:從模型性能到育種實踐的融合
6.1 構(gòu)建跨物種功能變異基準(Benchmark)
當前AlphaGenome的調(diào)控預測主要局限于人類和模式動物,而Evo 2則展示了在家畜中的廣泛適用性。未來可通過統(tǒng)一跨物種基準測試集(Cross-species Functional Benchmark)比較二者在變異分類、調(diào)控預測與遷移學習方面的性能。
6.2 多模態(tài)整合與遷移學習
AlphaGenome的多維輸出(ATAC、RNA、Hi-C 等)可為Evo 2嵌入提供生物學解釋層;Evo 2的序列表征可反哺AlphaGenome的跨物種遷移模塊。兩者的結(jié)合或?qū)⒋呱?strong>“通用基因組智能體(Universal Genomic Agent)”。
6.3 計算效率與模型壓縮
針對Evo 2的計算瓶頸,可探索參數(shù)剪枝、知識蒸餾及低秩近似以提升推理效率,從而使其在育種評估中實現(xiàn)常規(guī)化部署。
6.4 倫理與可持續(xù)育種
隨著AI參與育種決策,對突變與遺傳多樣性的理解需同步提升。未來應建立AI輔助遺傳改良的倫理與監(jiān)管框架,確保技術(shù)收益與物種健康的平衡。
七、結(jié)語
Evo 2的出現(xiàn)標志著基因組學進入“可讀懂DNA語義”的時代。其在多物種功能變異識別中的出色表現(xiàn),為農(nóng)畜遺傳改良提供了新的計算工具和理論支撐。盡管仍受限于計算資源與機制解釋,Evo 2的成功驗證了基于序列的AI模型在超越群體關(guān)聯(lián)分析、揭示功能本質(zhì)上的巨大潛力。
與之相對,DeepMind AlphaGenome在多模態(tài)調(diào)控建模與人類功能注釋中展現(xiàn)出強勁實力。二者代表了基因組AI的兩條互補路徑:
Evo 2 —— 從語言角度理解基因組的“句法”;
AlphaGenome —— 從功能角度解讀基因組的“語義”。
未來,當這兩類模型在開放生態(tài)中實現(xiàn)互補與融合,跨物種基因功能預測與精準育種將迎來全新的智能化階段。與此同時,構(gòu)建以農(nóng)業(yè)組學與表型數(shù)據(jù)為核心的專用大語言模型,有望進一步推動動植物復雜性狀解析與智能化育種決策的革新。