在线岛国中文制服,久久婷婷av在线

Nat Biotech | AI從測序數(shù)據(jù)中預(yù)測蛋白質(zhì)-配體的結(jié)合力

原創(chuàng)?蘇安?圖靈基因?2022-06-14 07:03?發(fā)表于江蘇

收錄于合集#前沿生物大數(shù)據(jù)分析

撰文：蘇安

IF：54.908

推薦度：?????

亮點(diǎn)：

1.?作者描述了一種靈活的機(jī)器學(xué)習(xí)方法，稱為ProBound，它可以量化平衡結(jié)合常數(shù)或動力學(xué)速率來準(zhǔn)確地實現(xiàn)序列識別，并且在量化轉(zhuǎn)錄因子（TF）模型中預(yù)測結(jié)合力的效果大大超越其他資源。

2.?當(dāng)ProBound與KD-seq方法結(jié)合分析時，可以預(yù)測蛋白質(zhì)-配體的結(jié)合親和力；ProBound也可以應(yīng)用于激酶-底物相互作用的動力學(xué)研究。ProBound為解碼生物網(wǎng)絡(luò)和量化蛋白質(zhì)-配體相互作用開辟了新的途徑。

生命由細(xì)胞構(gòu)成，細(xì)胞中的重要過程（比如細(xì)胞調(diào)控和信號轉(zhuǎn)導(dǎo)）高度依賴序列特異性的蛋白質(zhì)-配體的相互作用，因此，全面定量地分析序列識別對解碼這些分子網(wǎng)絡(luò)至關(guān)重要。雖然大規(guī)模并行測序提高了序列識別的速度，但是目前并未精確量化分子之間相互作用的生化物理參數(shù)。

近期，在Nature biotechnology雜志上發(fā)表了一篇名為“Prediction of protein–ligand binding affinity from sequencing data with interpretable machine learning”的文章，本文的研究人員通過建立一種“ProBound”的機(jī)器學(xué)習(xí)框架，以平衡結(jié)合常數(shù)和動力學(xué)速率來定義序列識別，實現(xiàn)了對蛋白質(zhì)-配體結(jié)合親和力的預(yù)測，并且ProBound在激酶-底物相互作用的動力學(xué)中也得到了應(yīng)用，這項方法為解碼生物網(wǎng)絡(luò)和量化蛋白質(zhì)-配體相互作用開辟了新的途徑。

首先，作者向我們展示了ProBound的框架。ProBound使用三層對多庫測序數(shù)據(jù)進(jìn)行系統(tǒng)建模（圖1）：結(jié)合層使用序列識別模型預(yù)測序列的結(jié)合自由能或酶效率；分析層編碼生成文庫的選擇步驟，并預(yù)測所有配體的頻率；測序?qū)訉y序過程中文庫的隨機(jī)采樣進(jìn)行建模。這些層被合并成一個函數(shù)，該函數(shù)被優(yōu)化以推斷識別模型。每一層都具備可擴(kuò)展性，可以聯(lián)合多種分析方法，實現(xiàn)復(fù)雜現(xiàn)象的解析（如酶修飾和甲基化）。圖1.ProBound方法的概述

為了在更廣泛的范圍內(nèi)量化TF的序列識別，作者利用已經(jīng)發(fā)表的SELEX數(shù)據(jù)庫對算法進(jìn)行訓(xùn)練，得到了1632個綁定模型（圖2a）。為了評估模型的性能，作者將每個TF與已發(fā)表的蛋白結(jié)合微陣列(PBM)、染色質(zhì)免疫沉淀測序(ChIP-seq)和非訓(xùn)練SELEX數(shù)據(jù)聯(lián)系起來，并計算了三個互補(bǔ)的性能指標(biāo)：有意義的親和折疊范圍(MAFR)，模型解釋的信號方差的比例r2，精度召回曲線下的面積(AUPRC)。結(jié)果顯示，ProBound在所有指標(biāo)上都優(yōu)于當(dāng)前的資源(圖2b)。圖2.TF綁定模型性能的驗證

除了序列本身影響TF的序列識別之外，輔助因子的相互作用和DNA甲基化也會影響TF的序列識別。為了量化在輔助因子作用下TF的特異性和協(xié)同性，作者團(tuán)隊利用三個高度保守的果蠅同源結(jié)構(gòu)域蛋白形成的復(fù)合物：同胸(Hth)、胞外膜(Exd)和超胸(Ubx)來建模分析。為了表征Hth：Exd：Ubx，作者首先對所有三個因素進(jìn)行了SELEX-seq，然后將這些數(shù)據(jù)與之前的單體和異質(zhì)二聚體數(shù)據(jù)結(jié)合進(jìn)行分析(圖3a)。結(jié)果顯示，當(dāng)Hth結(jié)合Exd：Ubx上游的8-13個堿基對(bp)時，模型具有顯著的協(xié)同性(ΔΔGconfig≈2RT)(圖3b)。為了量化甲基化對模型的影響，作者同時學(xué)習(xí)了所有三種二聚體的甲基化感知結(jié)合模型（圖3c），作者使用ChIP-seq數(shù)據(jù)來估計體內(nèi)這些位置特異性甲基化敏感性的影響，發(fā)現(xiàn)甲基化顯著影響了模型預(yù)測的結(jié)合方向(圖3d)，并且其他的DNA修飾方式如6mA、5hmc也會對TF產(chǎn)生影響（圖3e）。圖3.互補(bǔ)分析的綜合建模量化了甲基化和輔助因子對TF結(jié)合的影響

當(dāng)前測試方法的局限性是僅能用于蛋白-配體相對親和度的分析，為了能夠?qū)崿F(xiàn)蛋白-配體絕對親和度的分析，作者開發(fā)了名為KD-seq的檢測方法。KD-seq使用一個和規(guī)則關(guān)聯(lián)的三個庫的相對配體頻率來推斷絕對結(jié)合概率，然后以一種修正結(jié)合飽和的方法轉(zhuǎn)換為KD估計值(圖4a)。作者首先在低DNA和TF濃度(分別為100nM和20nM)下使用果蠅同源結(jié)構(gòu)域蛋白遠(yuǎn)端無端(Dll)測試KD-seq，以實現(xiàn)強(qiáng)富集和避免過度結(jié)合飽和。所得到的模型(圖4b)準(zhǔn)確地預(yù)測了KD中束縛庫和自由庫中超過三個數(shù)量級的富集情況(圖4c)。為了驗證，作者使用標(biāo)準(zhǔn)電遷移率測定法測量了最優(yōu)模型預(yù)測的結(jié)合位點(diǎn)和三個次優(yōu)序列的KD值，發(fā)現(xiàn)了很好的定量一致性(圖4d),盡管在幾種條件下，最高親和序列的KD估計值是相似的，但當(dāng)TF濃度比KD極高或DNA濃度遠(yuǎn)高于TF時，它就發(fā)生了變化(圖4e)。圖4.ProBound推斷絕對KD值。

為了從ChIP-seq數(shù)據(jù)中了解它們在體內(nèi)的影響，作者使用ProBound發(fā)現(xiàn)了驅(qū)動IMR90細(xì)胞系中糖皮質(zhì)激素受體(GR)ChIP-seq數(shù)據(jù)選擇的因素。研究發(fā)現(xiàn)了4種結(jié)合模型：一種與GR序列一致，另外3種與已知的GR輔助因子AP-1、FOXA1和TEAD一致(圖5a)。多濃度模型是建立在每個文庫被有意下調(diào)到105次或0.03次基因組序列的數(shù)據(jù)上(kb)構(gòu)建的。因此，即使在極低的覆蓋率下，ChIP-seq數(shù)據(jù)也明確地包含了足夠的信息來可靠地推斷TF結(jié)合模型，并量化具有生物學(xué)意義的細(xì)胞狀態(tài)參數(shù)。兩種GR結(jié)合模型的自由能參數(shù)與體外數(shù)據(jù)(r2=0.97和r2=0.92；圖5a，b)，表明體外和體內(nèi)結(jié)合特異性的觀察實際上是高度一致的。

圖5.ProBound使用無峰ChIP-seq分析學(xué)習(xí)定量結(jié)合模型和樣本特異性TF活性

為了探究激酶-底物相互作用的動力學(xué)，作者在一個固定的中心酪氨酸周圍隨機(jī)化10個氨基酸殘基，并將該文庫暴露在c-Src中(圖6a)，將推斷出的效率模型可視化為一個序列標(biāo)志(圖6b)，顯示了與早期研究一致的有利殘基的位置特異性模式。該模型還準(zhǔn)確地捕獲了所有三個時間點(diǎn)在keff的100倍范圍內(nèi)觀察到的磷酸化肽的部分(圖6c)，為了驗證該模型，作者使用高效液相色譜(HPLC)測量了11個多肽的磷酸化率，它們的歸一化初始磷酸化速率的測量值在ProBound模型預(yù)測的方向上有顯著差異(圖6d)。圖6.ProBound定量了酪氨酸激酶c-Src的序列依賴性動力學(xué)

本文作者向我們展示了，通過明確地建模分析過程，我們可以使用機(jī)器學(xué)習(xí)準(zhǔn)確地量化生物物理參數(shù)。作者預(yù)計ProBound能夠?qū)崿F(xiàn)的序列識別的準(zhǔn)確和無偏分析將在生物技術(shù)領(lǐng)域有許多應(yīng)用，其中配體或底物的合理工程設(shè)計至關(guān)重要。

教授介紹：

Harmen J. Bussemaker

Harmen J. Bussemaker是是生物科學(xué)系的主席和教授。Bussemaker博士以其通過整合有關(guān)基因組序列，轉(zhuǎn)錄因子結(jié)合和基因表達(dá)數(shù)據(jù)的信息來理解基因調(diào)控網(wǎng)絡(luò)的開創(chuàng)性努力而聞名。Bussemaker實驗室使用高通量測序和基于親和力的選擇，旨在以前所未有的分辨率量化轉(zhuǎn)錄因子的DNA結(jié)合特異性。他還使用生物物理模型從全基因組mRNA表達(dá)水平推斷轉(zhuǎn)錄因子調(diào)節(jié)活性的細(xì)胞狀態(tài)特異性變化。

參考文獻(xiàn)：

Rube, H.T., Rastogi, C., Feng, S. et al. Prediction of protein–ligand binding affinity from sequencing data with interpretable machine learning. Nat Biotechnol (2022).https://doi.org/10.1038/s41587-022-01307-0

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2022-06-14

2022-06-14

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

2022-06-14

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av