Nat Biotech | AI從測序數(shù)據(jù)中預(yù)測蛋白質(zhì)-配體的結(jié)合力
原創(chuàng)?蘇安?圖靈基因?2022-06-14 07:03?發(fā)表于江蘇
收錄于合集#前沿生物大數(shù)據(jù)分析
撰文:蘇安
IF:54.908
推薦度:?????
亮點(diǎn):
1.?作者描述了一種靈活的機(jī)器學(xué)習(xí)方法,稱為ProBound,它可以量化平衡結(jié)合常數(shù)或動力學(xué)速率來準(zhǔn)確地實現(xiàn)序列識別,并且在量化轉(zhuǎn)錄因子(TF)模型中預(yù)測結(jié)合力的效果大大超越其他資源。
2.?當(dāng)ProBound與KD-seq方法結(jié)合分析時,可以預(yù)測蛋白質(zhì)-配體的結(jié)合親和力;ProBound也可以應(yīng)用于激酶-底物相互作用的動力學(xué)研究。ProBound為解碼生物網(wǎng)絡(luò)和量化蛋白質(zhì)-配體相互作用開辟了新的途徑。

生命由細(xì)胞構(gòu)成,細(xì)胞中的重要過程(比如細(xì)胞調(diào)控和信號轉(zhuǎn)導(dǎo))高度依賴序列特異性的蛋白質(zhì)-配體的相互作用,因此,全面定量地分析序列識別對解碼這些分子網(wǎng)絡(luò)至關(guān)重要。雖然大規(guī)模并行測序提高了序列識別的速度,但是目前并未精確量化分子之間相互作用的生化物理參數(shù)。
近期,在Nature biotechnology雜志上發(fā)表了一篇名為“Prediction of protein–ligand binding affinity from sequencing data with interpretable machine learning”的文章,本文的研究人員通過建立一種“ProBound”的機(jī)器學(xué)習(xí)框架,以平衡結(jié)合常數(shù)和動力學(xué)速率來定義序列識別,實現(xiàn)了對蛋白質(zhì)-配體結(jié)合親和力的預(yù)測,并且ProBound在激酶-底物相互作用的動力學(xué)中也得到了應(yīng)用,這項方法為解碼生物網(wǎng)絡(luò)和量化蛋白質(zhì)-配體相互作用開辟了新的途徑。

首先,作者向我們展示了ProBound的框架。ProBound使用三層對多庫測序數(shù)據(jù)進(jìn)行系統(tǒng)建模(圖1):結(jié)合層使用序列識別模型預(yù)測序列的結(jié)合自由能或酶效率;分析層編碼生成文庫的選擇步驟,并預(yù)測所有配體的頻率;測序?qū)訉y序過程中文庫的隨機(jī)采樣進(jìn)行建模。這些層被合并成一個函數(shù),該函數(shù)被優(yōu)化以推斷識別模型。每一層都具備可擴(kuò)展性,可以聯(lián)合多種分析方法,實現(xiàn)復(fù)雜現(xiàn)象的解析(如酶修飾和甲基化)。圖1.ProBound方法的概述

為了在更廣泛的范圍內(nèi)量化TF的序列識別,作者利用已經(jīng)發(fā)表的SELEX數(shù)據(jù)庫對算法進(jìn)行訓(xùn)練,得到了1632個綁定模型(圖2a)。為了評估模型的性能,作者將每個TF與已發(fā)表的蛋白結(jié)合微陣列(PBM)、染色質(zhì)免疫沉淀測序(ChIP-seq)和非訓(xùn)練SELEX數(shù)據(jù)聯(lián)系起來,并計算了三個互補(bǔ)的性能指標(biāo):有意義的親和折疊范圍(MAFR),模型解釋的信號方差的比例r2,精度召回曲線下的面積(AUPRC)。結(jié)果顯示,ProBound在所有指標(biāo)上都優(yōu)于當(dāng)前的資源(圖2b)。圖2.TF綁定模型性能的驗證

除了序列本身影響TF的序列識別之外,輔助因子的相互作用和DNA甲基化也會影響TF的序列識別。為了量化在輔助因子作用下TF的特異性和協(xié)同性,作者團(tuán)隊利用三個高度保守的果蠅同源結(jié)構(gòu)域蛋白形成的復(fù)合物:同胸(Hth)、胞外膜(Exd)和超胸(Ubx)來建模分析。為了表征Hth:Exd:Ubx,作者首先對所有三個因素進(jìn)行了SELEX-seq,然后將這些數(shù)據(jù)與之前的單體和異質(zhì)二聚體數(shù)據(jù)結(jié)合進(jìn)行分析(圖3a)。結(jié)果顯示,當(dāng)Hth結(jié)合Exd:Ubx上游的8-13個堿基對(bp)時,模型具有顯著的協(xié)同性(ΔΔGconfig≈2RT)(圖3b)。為了量化甲基化對模型的影響,作者同時學(xué)習(xí)了所有三種二聚體的甲基化感知結(jié)合模型(圖3c),作者使用ChIP-seq數(shù)據(jù)來估計體內(nèi)這些位置特異性甲基化敏感性的影響,發(fā)現(xiàn)甲基化顯著影響了模型預(yù)測的結(jié)合方向(圖3d),并且其他的DNA修飾方式如6mA、5hmc也會對TF產(chǎn)生影響(圖3e)。圖3.互補(bǔ)分析的綜合建模量化了甲基化和輔助因子對TF結(jié)合的影響

當(dāng)前測試方法的局限性是僅能用于蛋白-配體相對親和度的分析,為了能夠?qū)崿F(xiàn)蛋白-配體絕對親和度的分析,作者開發(fā)了名為KD-seq的檢測方法。KD-seq使用一個和規(guī)則關(guān)聯(lián)的三個庫的相對配體頻率來推斷絕對結(jié)合概率,然后以一種修正結(jié)合飽和的方法轉(zhuǎn)換為KD估計值(圖4a)。作者首先在低DNA和TF濃度(分別為100nM和20nM)下使用果蠅同源結(jié)構(gòu)域蛋白遠(yuǎn)端無端(Dll)測試KD-seq,以實現(xiàn)強(qiáng)富集和避免過度結(jié)合飽和。所得到的模型(圖4b)準(zhǔn)確地預(yù)測了KD中束縛庫和自由庫中超過三個數(shù)量級的富集情況(圖4c)。為了驗證,作者使用標(biāo)準(zhǔn)電遷移率測定法測量了最優(yōu)模型預(yù)測的結(jié)合位點(diǎn)和三個次優(yōu)序列的KD值,發(fā)現(xiàn)了很好的定量一致性(圖4d),盡管在幾種條件下,最高親和序列的KD估計值是相似的,但當(dāng)TF濃度比KD極高或DNA濃度遠(yuǎn)高于TF時,它就發(fā)生了變化(圖4e)。圖4.ProBound推斷絕對KD值。

為了從ChIP-seq數(shù)據(jù)中了解它們在體內(nèi)的影響,作者使用ProBound發(fā)現(xiàn)了驅(qū)動IMR90細(xì)胞系中糖皮質(zhì)激素受體(GR)ChIP-seq數(shù)據(jù)選擇的因素。研究發(fā)現(xiàn)了4種結(jié)合模型:一種與GR序列一致,另外3種與已知的GR輔助因子AP-1、FOXA1和TEAD一致(圖5a)。多濃度模型是建立在每個文庫被有意下調(diào)到105次或0.03次基因組序列的數(shù)據(jù)上(kb)構(gòu)建的。因此,即使在極低的覆蓋率下,ChIP-seq數(shù)據(jù)也明確地包含了足夠的信息來可靠地推斷TF結(jié)合模型,并量化具有生物學(xué)意義的細(xì)胞狀態(tài)參數(shù)。兩種GR結(jié)合模型的自由能參數(shù)與體外數(shù)據(jù)(r2=0.97和r2=0.92;圖5a,b),表明體外和體內(nèi)結(jié)合特異性的觀察實際上是高度一致的。
圖5.ProBound使用無峰ChIP-seq分析學(xué)習(xí)定量結(jié)合模型和樣本特異性TF活性

為了探究激酶-底物相互作用的動力學(xué),作者在一個固定的中心酪氨酸周圍隨機(jī)化10個氨基酸殘基,并將該文庫暴露在c-Src中(圖6a),將推斷出的效率模型可視化為一個序列標(biāo)志(圖6b),顯示了與早期研究一致的有利殘基的位置特異性模式。該模型還準(zhǔn)確地捕獲了所有三個時間點(diǎn)在keff的100倍范圍內(nèi)觀察到的磷酸化肽的部分(圖6c),為了驗證該模型,作者使用高效液相色譜(HPLC)測量了11個多肽的磷酸化率,它們的歸一化初始磷酸化速率的測量值在ProBound模型預(yù)測的方向上有顯著差異(圖6d)。圖6.ProBound定量了酪氨酸激酶c-Src的序列依賴性動力學(xué)

本文作者向我們展示了,通過明確地建模分析過程,我們可以使用機(jī)器學(xué)習(xí)準(zhǔn)確地量化生物物理參數(shù)。作者預(yù)計ProBound能夠?qū)崿F(xiàn)的序列識別的準(zhǔn)確和無偏分析將在生物技術(shù)領(lǐng)域有許多應(yīng)用,其中配體或底物的合理工程設(shè)計至關(guān)重要。
教授介紹:

Harmen J. Bussemaker
Harmen J. Bussemaker是是生物科學(xué)系的主席和教授。Bussemaker博士以其通過整合有關(guān)基因組序列,轉(zhuǎn)錄因子結(jié)合和基因表達(dá)數(shù)據(jù)的信息來理解基因調(diào)控網(wǎng)絡(luò)的開創(chuàng)性努力而聞名。Bussemaker實驗室使用高通量測序和基于親和力的選擇,旨在以前所未有的分辨率量化轉(zhuǎn)錄因子的DNA結(jié)合特異性。他還使用生物物理模型從全基因組mRNA表達(dá)水平推斷轉(zhuǎn)錄因子調(diào)節(jié)活性的細(xì)胞狀態(tài)特異性變化。
參考文獻(xiàn):
Rube, H.T., Rastogi, C., Feng, S. et al. Prediction of protein–ligand binding affinity from sequencing data with interpretable machine learning. Nat Biotechnol (2022).https://doi.org/10.1038/s41587-022-01307-0