Science | 臉書AI研究所用語言模型對原子水平蛋白質(zhì)結(jié)構(gòu)作進化尺度預(yù)測
原創(chuàng)?朱顥璐?圖靈基因?2023-03-30 09:46?發(fā)表于江蘇
收錄于合集#前沿生物大數(shù)據(jù)分析
撰文:朱顥璐
IF=?63.714
推薦度:?????
亮點:
1、作者團隊使用大型語言模型演示了從初級序列直接推斷原子水平蛋白質(zhì)結(jié)構(gòu),在蛋白質(zhì)序列訓(xùn)練的語言模型中出現(xiàn)了蛋白質(zhì)結(jié)構(gòu)的原子分辨率圖像。
2、使用語言模型加速精確的原子分辨率結(jié)構(gòu)預(yù)測,使得宏基因組蛋白質(zhì)的大規(guī)模結(jié)構(gòu)表征成為可能。

核心詞匯:
語言模型:根據(jù)語言客觀事實而進行的語言抽象數(shù)學(xué)建模,是一種對應(yīng)關(guān)系。語言模型與語言客觀事實之間的關(guān)系,如同數(shù)學(xué)上的抽象直線與具體直線之間的關(guān)系。
深度學(xué)習(xí):學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學(xué)習(xí)過程中獲得的信息對數(shù)據(jù)的解釋有很大的幫助。最終目標(biāo)是讓機器能夠像人一樣具有分析學(xué)習(xí)能力,能夠識別文字、圖像和聲音等數(shù)據(jù)。
近日,來自臉書人工智能研究所的Zeming Lin、Halil Akin、Roshan Rao、Brian Hie等人在國際知名期刊Science上發(fā)表了題為“Evolutionary-scale prediction of atomic-level protein?structure with a language model”的論文。機器學(xué)習(xí)的最新進展利用多個序列比對中的進化信息來預(yù)測蛋白質(zhì)結(jié)構(gòu)。作者團隊使用大型語言模型演示了從初級序列直接推斷原子水平蛋白質(zhì)結(jié)構(gòu)。隨著蛋白質(zhì)序列的語言模型被放大到150億個參數(shù),在學(xué)習(xí)的表示中出現(xiàn)了蛋白質(zhì)結(jié)構(gòu)的原子分辨率圖像。這導(dǎo)致高分辨率結(jié)構(gòu)預(yù)測的數(shù)量級加速,這使得宏基因組蛋白質(zhì)的大規(guī)模結(jié)構(gòu)表征成為可能。作者團隊利用這一能力構(gòu)建了ESM宏基因組圖譜,通過預(yù)測> 6.17億個宏基因組蛋白質(zhì)序列的結(jié)構(gòu),其中> 2.25億個序列的預(yù)測具有很高的置信度,這使人們可以看到天然蛋白質(zhì)的廣泛廣度和多樣性。
在蛋白質(zhì)序列訓(xùn)練的語言模型中出現(xiàn)了原子分辨率結(jié)構(gòu)
作者團隊首先研究高分辨率蛋白質(zhì)結(jié)構(gòu)的出現(xiàn)。通過訓(xùn)練一系列的變壓器蛋白質(zhì)語言模型,ESM-2,從800萬個參數(shù)到150億個參數(shù)。相對于上一代模型ESM-1b, ESM-2引入了架構(gòu)、訓(xùn)練參數(shù)的改進,并增加了計算資源和數(shù)據(jù)[補充材料(SM)章節(jié)A.1.1和A.2]。由此產(chǎn)生的ESM-2模型家族在相當(dāng)數(shù)量的參數(shù)上優(yōu)于先前最先進的ESM-1b(約6.5億個參數(shù)模型),并且在結(jié)構(gòu)預(yù)測基準(zhǔn)上也優(yōu)于其他最近的蛋白質(zhì)語言模型(表S1)。
訓(xùn)練ESM-2來預(yù)測被隨機掩蓋在蛋白質(zhì)序列之外的氨基酸的身份:
其中,對于一個隨機生成的掩碼M,其中包含序列x中15%的位置i,該模型的任務(wù)是從周圍的上下文x\M中預(yù)測掩碼中氨基酸xi的身份,排除掩碼位置。這個隱藏的語言建模目標(biāo)在氨基酸之間的依賴關(guān)系中有更大的依賴關(guān)系。盡管訓(xùn)練目標(biāo)本身簡單且無監(jiān)督,但在數(shù)百萬個進化多樣的蛋白質(zhì)序列上求解它需要模型在進化過程中內(nèi)化序列模式。我們期望這種訓(xùn)練將導(dǎo)致生物結(jié)構(gòu)在語言模型中實現(xiàn),因為它鏈接到序列模式。ESM-2是通過UniRef50蛋白質(zhì)序列數(shù)據(jù)庫中的序列進行訓(xùn)練的。在訓(xùn)練過程中,從~ 1.38億個UniRef90序列中對~ 4300萬個UniRef50訓(xùn)練簇進行均勻加權(quán)采樣,這樣在訓(xùn)練過程中,模型可以看到~ 6500萬個唯一的序列。
當(dāng)作者團隊將ESM-2的參數(shù)規(guī)模從800萬個增加到150億個時,觀察到它對蛋白質(zhì)序列建模的保真度有了很大的提高。因為ESM-2的訓(xùn)練只針對序列,所以任何關(guān)于結(jié)構(gòu)發(fā)展的信息都必須是表示序列中的模式的結(jié)果。已知用掩蔽語言建模訓(xùn)練的變形模型可以形成與蛋白質(zhì)的殘基-殘基接觸圖相對應(yīng)的注意模式。作者團隊研究了蛋白質(zhì)結(jié)構(gòu)的低分辨率圖像是如何作為尺度函數(shù)出現(xiàn)的。使用線性投影從語言模型的注意模式中提取接觸圖(SMA.2.1)。頂部L(蛋白質(zhì)長度)預(yù)測接觸的精度(遠程接觸精度)衡量了注意力模式與蛋白質(zhì)結(jié)構(gòu)的對應(yīng)關(guān)系。注意模式在ESM-2中發(fā)展,對應(yīng)于三級結(jié)構(gòu)(圖1A),縮放導(dǎo)致對結(jié)構(gòu)的理解有了很大的提高(圖1B)。預(yù)測接觸的準(zhǔn)確性隨訓(xùn)練集中進化相關(guān)序列的數(shù)量變化。
為了識別模型中的原子分辨率信息,作者團隊使用等變轉(zhuǎn)換器(SM A.3.3)從語言模型的內(nèi)部表示中投影出每個原子的空間坐標(biāo)。通過使用蛋白質(zhì)數(shù)據(jù)庫(PDB)中實驗確定的蛋白質(zhì)結(jié)構(gòu)來擬合該預(yù)測,并對194個CAMEO蛋白和51個CASP14蛋白進行評估。TM-score范圍從0到1,用于測量投影與地面真相結(jié)構(gòu)相比的準(zhǔn)確性,其值為0.5,對應(yīng)于正確預(yù)測折疊的閾值。評估使用時間截止,確保用于測試的蛋白質(zhì)與用于擬合投影的蛋白質(zhì)分開。這使得度量原子水平信息如何作為參數(shù)規(guī)模的函數(shù)出現(xiàn)在模型表示中成為可能。
使用語言模型加速精確的原子分辨率結(jié)構(gòu)預(yù)測
語言模型極大地加速了最先進的高分辨率結(jié)構(gòu)預(yù)測。語言模型內(nèi)部化了與結(jié)構(gòu)相關(guān)聯(lián)的進化模式,從而消除了對外部進化數(shù)據(jù)庫、MSAs和模板的需求。作者團隊發(fā)現(xiàn)ESM-2語言模型直接從初級蛋白質(zhì)序列生成最先進的三維(3D)結(jié)構(gòu)預(yù)測,這導(dǎo)致在保持高分辨率精度的同時,提高了結(jié)構(gòu)預(yù)測的速度。
燒蝕研究表明,語言模型表示對ESMFold性能至關(guān)重要(圖S3)。使用8塊折疊主干,在CAMEO測試集上的性能為0.74局部距離差測試(LDDT)(基線)。如果沒有語言模型,這將大大降低到0.58 LDDT。當(dāng)完全刪除折疊主干(即僅使用語言模型和結(jié)構(gòu)模塊)時,性能降至0.66?LDDT。其他燒蝕,如結(jié)構(gòu)模塊只有一個塊,關(guān)閉回收,不使用AlphaFold2預(yù)測結(jié)構(gòu)作為提煉目標(biāo),或不使用三角更新,導(dǎo)致較小性能退化(LDDT變化為?0.01到?0.04)。
ESMFold提供了最先進的結(jié)構(gòu)預(yù)測精度,在超過一半的蛋白質(zhì)上匹配AlphaFold2的性能(<0.05 LDDT差異)(圖2B)。作者團隊發(fā)現(xiàn),即使在一些大型蛋白質(zhì)上也是如此,T1076是一個例子,TM評分為0.98,余數(shù)為540 (圖2D)。在ESMFold和AlphaFold之間,結(jié)構(gòu)部分低精度沒有顯著差異,這表明語言模型正在學(xué)習(xí)與MSAs中包含的信息相似的信息。作者團隊還觀察到ESMFold能夠很好地預(yù)測同源和異二聚蛋白-蛋白質(zhì)復(fù)合物的成分(圖2D)。在與AlphaFold-Multimer對PDB中2978個最近沉積的多聚體復(fù)合體的數(shù)據(jù)集進行比較時,盡管沒有對蛋白質(zhì)復(fù)合體進行訓(xùn)練(圖S4),ESMFold對53.2%的鏈對實現(xiàn)了相同的定性DockQ分類。
作者團隊研究了使用語言模型從序列直接預(yù)測蛋白質(zhì)結(jié)構(gòu),而不需要學(xué)習(xí)完整的原子水平結(jié)構(gòu)投影,但其準(zhǔn)確性與MSAs的使用沒有競爭力。與作者團隊同時開發(fā)的一種方法,使用類似的基于注意的語言模型表示處理來輸出原子坐標(biāo),似乎也顯示了MSAs的結(jié)果。
宏基因組學(xué)的演化尺度結(jié)構(gòu)表征
這種快速和高分辨率的結(jié)構(gòu)預(yù)測能力使宏基因組蛋白質(zhì)的大規(guī)模結(jié)構(gòu)表征成為可能。作者團隊從MGnify90數(shù)據(jù)庫中折疊了> 6.17億個序列。這是長度為20到1024的全部序列,涵蓋了MGnify90中所有序列的99%??傮w而言,該表征產(chǎn)生了約3.65億具有良好置信度的預(yù)測(平均pLDDT > 0.5和pTM > 0.5),對應(yīng)于數(shù)據(jù)庫的~ 59%,約2.25億具有高置信度的預(yù)測(平均pLDDT > 0.7和pTM > 0.7),對應(yīng)于折疊的總結(jié)構(gòu)的~ 36%(圖3)。使得能夠在2周內(nèi)完成約2000個GPU集群的預(yù)測(SM A.4.1)。
對于大規(guī)模的結(jié)構(gòu)預(yù)測,區(qū)分預(yù)測良好的蛋白質(zhì)和預(yù)測不良的蛋白質(zhì)是至關(guān)重要的。在前一節(jié)中,作者團隊評估了針對測試集上實驗確定結(jié)構(gòu)的校準(zhǔn),并發(fā)現(xiàn)模型置信度可以預(yù)測與實驗確定結(jié)構(gòu)的一致性,還根據(jù)宏基因組蛋白質(zhì)的AlphaFold預(yù)測評估校準(zhǔn)。在約4000個宏基因組序列的隨機子集上,ESMFold pLDDT和LDDT對AlphaFold2的預(yù)測之間存在高度相關(guān)性(Pearson r=0.79)(圖3A)。當(dāng)與CAMEO的結(jié)果相結(jié)合時,表明當(dāng)置信度非常高時(pLDDT?> 0.9),ESMFold預(yù)測通常接近實驗精度。這些發(fā)現(xiàn)意味著ESMFold的置信度得分很好地表明了與實驗結(jié)構(gòu)的一致,并與可以從AlphaFold2中獲得的預(yù)測一致。在6.17億個預(yù)測結(jié)構(gòu)中,有1.13億個結(jié)構(gòu)達到了非常高的置信閾值。
許多宏基因組結(jié)構(gòu)預(yù)測具有很高的置信度(圖B),并且在現(xiàn)有的結(jié)構(gòu)數(shù)據(jù)庫中沒有表示(圖3C-E)。在100萬個高置信結(jié)構(gòu)的隨機樣本中,76.8%(767,580)的蛋白質(zhì)與UniRef90中的任意序列的序列同一性低于90%,這表明這些蛋白質(zhì)與現(xiàn)有的UniRef90序列不同(圖3 E)。對于3.4%(33,521個蛋白質(zhì)),在UniRef90中根本沒有找到匹配(SM A.4.2)。
作者團隊使用Foldseek將預(yù)測結(jié)構(gòu)與PDB中的已知結(jié)構(gòu)進行比較。在TM-評分為0.7和0.5的閾值時,F(xiàn)oldseek分別報告了25.4%(253,905個蛋白質(zhì))和12.6%(125,765個蛋白質(zhì))的不匹配(圖3C和圖D)。2.6%(25,664個蛋白質(zhì))的結(jié)構(gòu)相似度較低(TM-評分≤0.5),且沒有緊密的序列同源(>30%的同源性)。在這些次抽樣估計的基礎(chǔ)上,有大約2800萬個蛋白質(zhì)(2.25億個蛋白質(zhì)中的12.6%)對已知的蛋白質(zhì)結(jié)構(gòu)具有高置信預(yù)測和TM-評分< 0.5(圖A和表S2中的例子)。
這些結(jié)果表明,ESMFold可以有效地描述與現(xiàn)有知識相距甚遠的蛋白質(zhì)空間區(qū)域。在缺乏序列相似性的情況下,大規(guī)模的結(jié)構(gòu)表征也存在一些不一致的地方。許多與UniRef90序列相似度低的高置信結(jié)構(gòu)在PDB中確實具有相似的結(jié)構(gòu)。這種遠程同源性通常超出了序列相似性所能檢測到的極限。檢測結(jié)構(gòu)中遙遠的相似性的能力使得作者團隊能夠洞察無法從序列中獲得的功能。
所有預(yù)測的結(jié)構(gòu)都可以在ESM宏基因組圖譜(https://esmatlas.com)中作為開放的科學(xué)資源獲得。通過應(yīng)用程序編程接口(API)和提供按結(jié)構(gòu)和順序搜索的網(wǎng)絡(luò)資源,結(jié)構(gòu)可以批量下載。這些工具有助于對數(shù)億個預(yù)測結(jié)構(gòu)的全部范圍進行大規(guī)模和集中的分析。
結(jié)論
快速準(zhǔn)確的計算結(jié)構(gòu)預(yù)測有可能加速一個時代的進展,在這個時代,人們有可能了解在基因測序?qū)嶒炛邪l(fā)現(xiàn)的所有蛋白質(zhì)的結(jié)構(gòu)。這些工具有望深入了解蛋白質(zhì)的巨大自然多樣性,其中大多數(shù)都是在宏基因組測序中發(fā)現(xiàn)的。為此,作者團隊完成了宏基因組蛋白質(zhì)的大規(guī)模結(jié)構(gòu)表征,揭示了數(shù)億種蛋白質(zhì)的預(yù)測結(jié)構(gòu),其中數(shù)百萬種蛋白質(zhì)預(yù)計與實驗確定的結(jié)構(gòu)不同。
隨著結(jié)構(gòu)預(yù)測繼續(xù)擴展到更大數(shù)量的蛋白質(zhì),校準(zhǔn)變得至關(guān)重要,因為當(dāng)預(yù)測的吞吐量受到限制時,預(yù)測的準(zhǔn)確性和速度在可以生成的準(zhǔn)確預(yù)測數(shù)量中形成聯(lián)合邊界。宏基因組圖譜的高可信度預(yù)測通常被期望在足夠的分辨率上可靠,以洞察類似于實驗確定的結(jié)構(gòu),例如活性位點的生物化學(xué)。對于更多的拓撲結(jié)構(gòu)可以可靠預(yù)測的蛋白質(zhì),可以通過遠程結(jié)構(gòu)關(guān)系獲得對功能的洞察,否則無法通過序列檢測到。
語言模型中原子水平結(jié)構(gòu)的出現(xiàn)展示了一幅由進化編碼成蛋白質(zhì)序列的高分辨率圖像,可以用無監(jiān)督學(xué)習(xí)捕獲。目前作者團隊的模型在參數(shù)、序列數(shù)據(jù)和計算能力方面還遠遠沒有達到原則上可以應(yīng)用的極限。隨著繼續(xù)擴大規(guī)模,可能會有進一步的涌現(xiàn)。作者團隊的結(jié)果顯示,在低深度蛋白質(zhì)建模方面的改進指向了這個方向。ESM-2的結(jié)果是在速度上的進步,實際上達到了一到兩個數(shù)量級,這使得更大數(shù)量的序列可以實現(xiàn)精確的原子水平預(yù)測。演化尺度上的結(jié)構(gòu)預(yù)測可以深入了解蛋白質(zhì)的自然多樣性,加速發(fā)現(xiàn)蛋白質(zhì)的結(jié)構(gòu)和功能。
教授介紹
Zeming Lin,臉書人工智能研究所的研究工程師,從事后端基礎(chǔ)設(shè)施工作,弗吉尼亞大學(xué)的碩士學(xué)位和學(xué)士學(xué)位,研究機器學(xué)習(xí)的應(yīng)用,特別是在蛋白質(zhì)結(jié)構(gòu)預(yù)測和安全方面,對深度學(xué)習(xí)、結(jié)構(gòu)預(yù)測和生物信息學(xué)感興趣。
參考文獻
Lin Z, Akin H, Rao R, Hie B, Zhu Z, Lu W, Smetanin N, Verkuil R, Kabeli O, Shmueli Y, Dos Santos Costa A, Fazel-Zarandi M, Sercu T, Candido S, Rives A. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science. 2023 Mar 17;379(6637):1123-1130. doi: 10.1126/science.ade2574. Epub 2023 Mar 16. PMID: 36927031.