Nat Mac Int | 基于語言模型的蛋白質(zhì)設(shè)計
原創(chuàng)?mumu?圖靈基因?2022-07-11 08:32?發(fā)表于江蘇
收錄于合集#前沿生物大數(shù)據(jù)分析
撰文:mumu
IF=?15.508
推薦度:?????
亮點:
作者認為基于transformer的蛋白質(zhì)語言模型將徹底改變蛋白質(zhì)設(shè)計領(lǐng)域,并為當前和未來的許多社會挑戰(zhàn)提供新的解決方案。希望這種想法能影響到人工智能和生物化學界,并鼓勵將NLP方法應用于蛋白質(zhì)研究。

2022年6月22日,目前是西班牙赫羅納大學的Noelia Ferruz博士在《Nature Machine Intelligence》上發(fā)表了一篇名為“Controllable protein design with language models”的綜述。自然語言中字母形成單詞和句子承載含義,蛋白質(zhì)中氨基酸以多種組合排列形成承載功能的結(jié)構(gòu),本質(zhì)上蛋白質(zhì)序列與自然語言相似。隨著人工智能領(lǐng)域的不斷發(fā)展,自然語言處理領(lǐng)域的革命性突破,作者認為,使用生成性語言模型來可控設(shè)計蛋白質(zhì)將是一個前景領(lǐng)域,此綜述詳細討論了該模型對蛋白質(zhì)設(shè)計的可預見性影響。

二十一世紀正向人類提出前所未有的環(huán)境和醫(yī)學挑戰(zhàn)。為特定目的設(shè)計新蛋白質(zhì)的能力可能會改變我們及時應對這些問題的能力。然而,如何以快速和具有成本效益的方式定制設(shè)計特定、高效和量身定制的蛋白質(zhì),研究者仍在探索。蛋白質(zhì)設(shè)計時有一巨大的挑戰(zhàn)是創(chuàng)建功能性蛋白質(zhì)的高級結(jié)構(gòu),常被稱為蛋白質(zhì)反向折疊問題。在人工智能領(lǐng)域,這一挑戰(zhàn)被轉(zhuǎn)化成如何獲得特定折疊結(jié)構(gòu)的最佳序列。由于蛋白質(zhì)序列與自然語言本質(zhì)相似,為利用自然語言處理(NLP)方法進行蛋白質(zhì)研究打開了一扇未被探索的大門。
首先,作者介紹了自然語言和蛋白質(zhì)序列之間的相似性(圖1)。蛋白質(zhì)序列(一級結(jié)構(gòu))由其20個標準氨基酸(類似于自然語言字母表中的字符)串聯(lián)而成。這些氨基酸形成了二級結(jié)構(gòu)元素,如:α-螺旋和β-螺旋,它們就像單詞組合成具有意義的句子一樣,排列形成具有功能的三級結(jié)構(gòu)。蛋白質(zhì)結(jié)構(gòu)域進一步組裝成更大的四元復合體,類似于構(gòu)建句子的文本。這時自然語言句子中的錯別字可能是致命的,這類似蛋白質(zhì)的功能錯義突變。句子和序列可以被置換,但它們的意義和功能保持不變。語法上正確的句子不能保證邏輯有意義,類似像折疊結(jié)構(gòu)正確的蛋白質(zhì)不能保證功能。

基于這種相似性,NLP對蛋白質(zhì)研究產(chǎn)生了長遠的影響。NLP方法和蛋白質(zhì)研究的技術(shù)手段交織(圖2)。幾十年來,NLP領(lǐng)域的每一項突破都反映在多年后的蛋白質(zhì)研究應用中。其中NLP隱馬爾可夫模型(HMM)是隨機過程,卷積網(wǎng)絡(luò)(CNN)、遞歸網(wǎng)絡(luò)(RNN)和注意力機制等涉及神經(jīng)網(wǎng)絡(luò)。而且自2010年代以來,神經(jīng)網(wǎng)絡(luò)開始在各種NLP任務中產(chǎn)生優(yōu)異的結(jié)果。很快其中CNN的適用性很快擴展到蛋白質(zhì)研究,以預測蛋白質(zhì)無序、DNA結(jié)合位點和折疊分類。然而,CNN未能對遠程信息進行建模,也就是說無法進空間遠程接觸。為此,NLP研究人員轉(zhuǎn)向RNN,Alley等人開發(fā)了用于蛋白質(zhì)的語言模型UniRep;注意力機制模型,谷歌發(fā)布了Transformer。隨著Transformer的不斷發(fā)展,這些預先訓練的模型開始生成類似人類的、長的、連貫的文章。這在NLP領(lǐng)域具有巨大的潛力,且可以應用于蛋白質(zhì)研究。

最常用的Transformer原理圖概述(圖3)。seq2seq模型中編碼器(E)和解碼器(D)模型處理順序輸入被編碼為上下文(C)的向量;最初的transformer架構(gòu)由編碼器和解碼器模型組成,每個模型都有六層堆棧;GPT-n transformers基于原始transformer,但僅包含解碼器模型(圖3c),而BERT僅使用編碼器(圖3d)。

近年來Transformer模型大小和數(shù)據(jù)庫隨時間不斷增長(圖4)。受到transformer的啟發(fā),研究人員開始嘗試將語言模型的概念應用于蛋白質(zhì)序列。

在蛋白質(zhì)工程領(lǐng)域使用transformer模型的可能性(圖5)。事實證明,用蛋白質(zhì)序列數(shù)據(jù)庫訓練transformer (T)之后,可以產(chǎn)生從頭開始的蛋白質(zhì)序列(如圖5e所示)。微調(diào)蛋白質(zhì)家族的預訓練模型將產(chǎn)生與該家族兼容的新序列。最后一層的矢量表示可以用于各種下游任務,通過使用耦合模型進行訓練,例如,預測蛋白質(zhì)的穩(wěn)定性。條件轉(zhuǎn)換器將能夠產(chǎn)生具有某些屬性的序列,例如‘蛋白酶’或‘膜’結(jié)合。注意力機制的可視化為理解transformer模型打開了大門,這些模型與其他技術(shù)一起,可以用來理解蛋白質(zhì)設(shè)計原理,如所需的相互作用。機器翻譯模型,例如來自原始transformer的模型,可以實現(xiàn)受體和酶的設(shè)計。

NLP領(lǐng)域的最新發(fā)展及其在蛋白質(zhì)序列中的潛在應用,為蛋白質(zhì)研究和可定制蛋白質(zhì)的設(shè)計打開了令人興奮的新大門。基于transformer的語言模型服務于各種任務,包括翻譯自然語言,甚至編寫代碼來訓練機器學習模型。此外,這些新的模型生成文本的能力與人類非常相似,以至于自誕生以來,它們就一直飽受爭議,往往因為擔心可能被以假新聞或不道德的醫(yī)療建議的形式發(fā)布而濫用。不論如何,這些例子清楚地表明了transformer令人難以置信的潛力。鑒于語言和蛋白質(zhì)序列之間的相似性,蛋白質(zhì)研究領(lǐng)域無疑將受益于這項變革性的新技術(shù)。
教授介紹

Noelia Ferruz目前是西班牙赫羅納大學一名博士后,近年來主要從事蛋白質(zhì)結(jié)構(gòu)分析工具開發(fā),使用和改進計算設(shè)計方法設(shè)計蛋白質(zhì)等工作。未來希望能夠構(gòu)建具有附加功能的蛋白質(zhì),用于醫(yī)療和工業(yè)應用。其多篇研究成果已在《Nature Biotechnology》、《Nucleic Acids Research》、《Frontiers in Molecular Biosciences》等國際知名期刊上發(fā)表。
參考文獻
Ferruz, N., H?cker, B. Controllable protein design with language models. Nat Mach Intell 4, 521–532 (2022). https://doi.org/10.1038/s42256-022-00499-z