尻寡妇图片,国产精品丝袜在线不卡

Nat Mac Int | 基于語言模型的蛋白質(zhì)設(shè)計

原創(chuàng)?mumu?圖靈基因?2022-07-11 08:32?發(fā)表于江蘇

收錄于合集#前沿生物大數(shù)據(jù)分析

撰文：mumu

IF=?15.508

推薦度：?????

亮點：

作者認為基于transformer的蛋白質(zhì)語言模型將徹底改變蛋白質(zhì)設(shè)計領(lǐng)域，并為當前和未來的許多社會挑戰(zhàn)提供新的解決方案。希望這種想法能影響到人工智能和生物化學界，并鼓勵將NLP方法應用于蛋白質(zhì)研究。

2022年6月22日，目前是西班牙赫羅納大學的Noelia Ferruz博士在《Nature Machine Intelligence》上發(fā)表了一篇名為“Controllable protein design with language models”的綜述。自然語言中字母形成單詞和句子承載含義，蛋白質(zhì)中氨基酸以多種組合排列形成承載功能的結(jié)構(gòu)，本質(zhì)上蛋白質(zhì)序列與自然語言相似。隨著人工智能領(lǐng)域的不斷發(fā)展，自然語言處理領(lǐng)域的革命性突破，作者認為，使用生成性語言模型來可控設(shè)計蛋白質(zhì)將是一個前景領(lǐng)域，此綜述詳細討論了該模型對蛋白質(zhì)設(shè)計的可預見性影響。

二十一世紀正向人類提出前所未有的環(huán)境和醫(yī)學挑戰(zhàn)。為特定目的設(shè)計新蛋白質(zhì)的能力可能會改變我們及時應對這些問題的能力。然而，如何以快速和具有成本效益的方式定制設(shè)計特定、高效和量身定制的蛋白質(zhì)，研究者仍在探索。蛋白質(zhì)設(shè)計時有一巨大的挑戰(zhàn)是創(chuàng)建功能性蛋白質(zhì)的高級結(jié)構(gòu)，常被稱為蛋白質(zhì)反向折疊問題。在人工智能領(lǐng)域，這一挑戰(zhàn)被轉(zhuǎn)化成如何獲得特定折疊結(jié)構(gòu)的最佳序列。由于蛋白質(zhì)序列與自然語言本質(zhì)相似，為利用自然語言處理(NLP)方法進行蛋白質(zhì)研究打開了一扇未被探索的大門。

首先，作者介紹了自然語言和蛋白質(zhì)序列之間的相似性（圖1）。蛋白質(zhì)序列(一級結(jié)構(gòu))由其20個標準氨基酸（類似于自然語言字母表中的字符）串聯(lián)而成。這些氨基酸形成了二級結(jié)構(gòu)元素，如：α-螺旋和β-螺旋，它們就像單詞組合成具有意義的句子一樣，排列形成具有功能的三級結(jié)構(gòu)。蛋白質(zhì)結(jié)構(gòu)域進一步組裝成更大的四元復合體，類似于構(gòu)建句子的文本。這時自然語言句子中的錯別字可能是致命的，這類似蛋白質(zhì)的功能錯義突變。句子和序列可以被置換，但它們的意義和功能保持不變。語法上正確的句子不能保證邏輯有意義，類似像折疊結(jié)構(gòu)正確的蛋白質(zhì)不能保證功能。

基于這種相似性，NLP對蛋白質(zhì)研究產(chǎn)生了長遠的影響。NLP方法和蛋白質(zhì)研究的技術(shù)手段交織（圖2）。幾十年來，NLP領(lǐng)域的每一項突破都反映在多年后的蛋白質(zhì)研究應用中。其中NLP隱馬爾可夫模型(HMM)是隨機過程，卷積網(wǎng)絡(luò)(CNN)、遞歸網(wǎng)絡(luò)(RNN)和注意力機制等涉及神經(jīng)網(wǎng)絡(luò)。而且自2010年代以來，神經(jīng)網(wǎng)絡(luò)開始在各種NLP任務中產(chǎn)生優(yōu)異的結(jié)果。很快其中CNN的適用性很快擴展到蛋白質(zhì)研究，以預測蛋白質(zhì)無序、DNA結(jié)合位點和折疊分類。然而，CNN未能對遠程信息進行建模，也就是說無法進空間遠程接觸。為此，NLP研究人員轉(zhuǎn)向RNN，Alley等人開發(fā)了用于蛋白質(zhì)的語言模型UniRep；注意力機制模型，谷歌發(fā)布了Transformer。隨著Transformer的不斷發(fā)展，這些預先訓練的模型開始生成類似人類的、長的、連貫的文章。這在NLP領(lǐng)域具有巨大的潛力，且可以應用于蛋白質(zhì)研究。

最常用的Transformer原理圖概述（圖3）。seq2seq模型中編碼器(E)和解碼器(D)模型處理順序輸入被編碼為上下文(C)的向量；最初的transformer架構(gòu)由編碼器和解碼器模型組成，每個模型都有六層堆棧；GPT-n transformers基于原始transformer，但僅包含解碼器模型(圖3c)，而BERT僅使用編碼器(圖3d)。

近年來Transformer模型大小和數(shù)據(jù)庫隨時間不斷增長（圖4）。受到transformer的啟發(fā)，研究人員開始嘗試將語言模型的概念應用于蛋白質(zhì)序列。

在蛋白質(zhì)工程領(lǐng)域使用transformer模型的可能性（圖5）。事實證明，用蛋白質(zhì)序列數(shù)據(jù)庫訓練transformer (T)之后，可以產(chǎn)生從頭開始的蛋白質(zhì)序列(如圖5e所示)。微調(diào)蛋白質(zhì)家族的預訓練模型將產(chǎn)生與該家族兼容的新序列。最后一層的矢量表示可以用于各種下游任務，通過使用耦合模型進行訓練，例如，預測蛋白質(zhì)的穩(wěn)定性。條件轉(zhuǎn)換器將能夠產(chǎn)生具有某些屬性的序列，例如‘蛋白酶’或‘膜’結(jié)合。注意力機制的可視化為理解transformer模型打開了大門，這些模型與其他技術(shù)一起，可以用來理解蛋白質(zhì)設(shè)計原理，如所需的相互作用。機器翻譯模型，例如來自原始transformer的模型，可以實現(xiàn)受體和酶的設(shè)計。

NLP領(lǐng)域的最新發(fā)展及其在蛋白質(zhì)序列中的潛在應用，為蛋白質(zhì)研究和可定制蛋白質(zhì)的設(shè)計打開了令人興奮的新大門。基于transformer的語言模型服務于各種任務，包括翻譯自然語言，甚至編寫代碼來訓練機器學習模型。此外，這些新的模型生成文本的能力與人類非常相似，以至于自誕生以來，它們就一直飽受爭議，往往因為擔心可能被以假新聞或不道德的醫(yī)療建議的形式發(fā)布而濫用。不論如何，這些例子清楚地表明了transformer令人難以置信的潛力。鑒于語言和蛋白質(zhì)序列之間的相似性，蛋白質(zhì)研究領(lǐng)域無疑將受益于這項變革性的新技術(shù)。

教授介紹

Noelia Ferruz目前是西班牙赫羅納大學一名博士后，近年來主要從事蛋白質(zhì)結(jié)構(gòu)分析工具開發(fā)，使用和改進計算設(shè)計方法設(shè)計蛋白質(zhì)等工作。未來希望能夠構(gòu)建具有附加功能的蛋白質(zhì)，用于醫(yī)療和工業(yè)應用。其多篇研究成果已在《Nature Biotechnology》、《Nucleic Acids Research》、《Frontiers in Molecular Biosciences》等國際知名期刊上發(fā)表。

參考文獻

Ferruz, N., H?cker, B. Controllable protein design with language models. Nat Mach Intell 4, 521–532 (2022). https://doi.org/10.1038/s42256-022-00499-z

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2022-07-11

2022-07-11

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

2022-07-11

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av