国产人妻日日躁夜夜嗨,成人青青草久久,青青草网址大全

文章來(lái)源：微信公眾號(hào) - ComputArt計(jì)算有樂(lè)趣 2019-5-28

近年來(lái)大數(shù)據(jù)和機(jī)器學(xué)習(xí)方面的突破性進(jìn)展，使得基于機(jī)器學(xué)習(xí)的藥物設(shè)計(jì)成為藥物研發(fā)領(lǐng)域中追逐的新熱點(diǎn)。應(yīng)用機(jī)器學(xué)習(xí)方法在虛擬篩選中的成功案例也屢見(jiàn)報(bào)道。然而機(jī)器學(xué)習(xí)所建立的模型基本是一個(gè)黑匣子（black box），大多數(shù)情況下人們無(wú)法獲知數(shù)據(jù)中的哪些特征是決定性的，也不清楚模型預(yù)測(cè)的“真實(shí)結(jié)果”是否有“真實(shí)原因”可循，抑或僅僅是由于數(shù)據(jù)集本身內(nèi)容的偏重所致？對(duì)于基于機(jī)器學(xué)習(xí)方法的虛擬篩選，如何評(píng)價(jià)其真實(shí)的性能？需要建立什么樣的標(biāo)準(zhǔn)測(cè)試集，發(fā)展什么樣的評(píng)價(jià)策略？德國(guó)漢堡大學(xué)Rarey教授課題組針對(duì)這些問(wèn)題進(jìn)行了分析，最近在美國(guó)化學(xué)會(huì)出版的Journal of Chemical Information and Modeling雜志"Machine-Learning in Drug Discovery"?？习l(fā)表了觀點(diǎn)（J. Chem. Inf. Model. 2019, 59, 947-961）。

作者首先選擇三個(gè)常用的虛擬篩選標(biāo)準(zhǔn)測(cè)試集作為研究對(duì)象，包括DUD，DUD-E和MUV。DUD和DUD-E由Shoichet等人基于ZINC數(shù)據(jù)庫(kù)發(fā)展而來(lái)，用于評(píng)價(jià)基于結(jié)構(gòu)的虛擬篩選方法（如分子對(duì)接方法）。MUV則由Rohrer等人基于PubChem數(shù)據(jù)庫(kù)構(gòu)建獲得，用于評(píng)價(jià)基于配體的虛擬篩選方法。以這三個(gè)標(biāo)準(zhǔn)測(cè)試集的無(wú)偏重特征及其組合為描述符，作者采用隨機(jī)森林方法建立虛擬篩選的預(yù)測(cè)模型，并通過(guò)兩種交叉驗(yàn)證實(shí)驗(yàn)（如圖-1(1)和(2)所示）對(duì)模型的篩選性能進(jìn)行評(píng)價(jià)。

圖-1 三種交叉驗(yàn)證實(shí)驗(yàn)示意圖。(1)靶標(biāo)內(nèi)交叉驗(yàn)證：將每個(gè)靶標(biāo)的配體分子隨機(jī)分為訓(xùn)練集和測(cè)試集進(jìn)行3倍交叉驗(yàn)證；(2)靶標(biāo)間交叉驗(yàn)證：隨機(jī)挑選m個(gè)靶標(biāo)中部分靶標(biāo)及其配體分子作為測(cè)試集，剩余靶標(biāo)及其配體分子作為訓(xùn)練集進(jìn)行3倍交叉驗(yàn)證；(3)留一法靶標(biāo)間交叉驗(yàn)證：隨機(jī)選擇某一靶標(biāo)及其配體分子作為測(cè)試集，選擇與該靶標(biāo)相似度低于某一閾值的靶標(biāo)及其配體作為訓(xùn)練集進(jìn)行n倍交叉驗(yàn)證。

圖-2 隨機(jī)森林方法對(duì)DUD，DUD-E和MUV三個(gè)數(shù)據(jù)集無(wú)偏重特征的虛擬篩選評(píng)價(jià)結(jié)果，橫坐標(biāo)為訓(xùn)練模型所用的特征數(shù)目，縱坐標(biāo)為虛擬篩選的平均AUC值。(a), (b)和(c)分別為靶標(biāo)內(nèi)交叉驗(yàn)證實(shí)驗(yàn)在三個(gè)數(shù)據(jù)集上的結(jié)果；(d)和(e)為靶標(biāo)間交叉驗(yàn)證實(shí)驗(yàn)在DUD和DUD-E數(shù)據(jù)集上的結(jié)果。

三個(gè)標(biāo)準(zhǔn)測(cè)試集的無(wú)偏重特征在活性化合物和非活性化合物中具有近似的均值和方差值。作者認(rèn)為以無(wú)偏重特征作為篩選條件，其篩選效果與隨機(jī)篩選相當(dāng)，虛篩富集曲線的AUC值應(yīng)接近0.5。然而，基于機(jī)器學(xué)習(xí)方法的虛篩結(jié)果顯示（圖-2），即使采用單個(gè)特征，隨機(jī)森林方法仍然能夠較好地區(qū)分這三個(gè)標(biāo)準(zhǔn)測(cè)試集中的活性與非活性化合物。特別是當(dāng)多個(gè)特征組合時(shí)，在DUD和DUD-E標(biāo)準(zhǔn)測(cè)試集上，靶標(biāo)內(nèi)和靶標(biāo)間的交叉驗(yàn)證實(shí)驗(yàn)所得的AUC值接近1.0和0.8。這意味著，對(duì)于機(jī)器學(xué)習(xí)方法來(lái)說(shuō)，低維度特征已經(jīng)足夠用于區(qū)分活性與非活性化合物。作者因此認(rèn)為：在對(duì)采用更復(fù)雜特征描述符的機(jī)器學(xué)習(xí)方法進(jìn)行評(píng)價(jià)時(shí)，應(yīng)當(dāng)選擇基于低維度描述符的結(jié)果作為一個(gè)合適的評(píng)價(jià)基準(zhǔn)線。

作者進(jìn)一步以DUD/DUD-E為標(biāo)準(zhǔn)測(cè)試集，對(duì)兩種基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法DeepVS和基于格點(diǎn)的三維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行評(píng)價(jià)。前者通過(guò)配體分子中每個(gè)原子的局部相鄰原子的基本特征（如原子間距離，原子類型，原子電荷等）來(lái)描述蛋白-配體之間的相互作用（圖-3(a)）。后者則是將配體分子的三維構(gòu)象置于覆蓋蛋白結(jié)合口袋的格點(diǎn)盒子中，采用基于格點(diǎn)的三維描述符來(lái)表征蛋白-配體之間的相互作用（圖-3(b)）。

圖-3 (a)DeepVS描述符示意圖。以N3原子（黃色）為例，配體分子上鄰近的原子共有三個(gè)：N3，H和C2，蛋白分子上鄰近的原子共有CD和OE，分別對(duì)應(yīng)參數(shù)kc=3, kp=2; (b)基于格點(diǎn)的三維描述符示意圖。每個(gè)格點(diǎn)保存原子類型，空間距離等相關(guān)信息。

文獻(xiàn)報(bào)道DeepVS方法在DUD測(cè)試集上經(jīng)留一法交叉驗(yàn)證獲得的平均AUC值為0.81。作者摒棄蛋白部分信息，僅基于配體分子的隨機(jī)構(gòu)象用于構(gòu)建DeepVS方法的預(yù)測(cè)模型，經(jīng)留一法交叉驗(yàn)證獲得的平均AUC值為0.79。這與基于三維描述符所得的結(jié)果沒(méi)有顯著差異。與采用配體二維拓?fù)涮卣鞯碾S機(jī)森林方法在相同標(biāo)準(zhǔn)測(cè)試集上的預(yù)測(cè)結(jié)果相比（平均AUC值為0.78），DeepVS方法也沒(méi)有體現(xiàn)出明顯的優(yōu)勢(shì)。作者采用基于格點(diǎn)的三維卷積神經(jīng)網(wǎng)絡(luò)方法在DUD-E測(cè)試集上進(jìn)行類似的對(duì)比實(shí)驗(yàn)也獲得了相同的結(jié)論。作者對(duì)此給出的解釋是：DUD/DUD-E測(cè)試集的構(gòu)建原理表明配體的二維拓?fù)浣Y(jié)構(gòu)是區(qū)分活性與非活性化合物的決定性特征。DeepVS和基于格點(diǎn)的三維卷積神經(jīng)網(wǎng)絡(luò)方法的三維描述符中隱式地包含了二維拓?fù)涮卣?。因此，配體的二維拓?fù)涮卣髯阋杂糜趯?duì)活性和非活性化合物進(jìn)行有效區(qū)分。這也表明，DUD和DUD-E標(biāo)準(zhǔn)測(cè)試集對(duì)于基于配體二維拓?fù)涮卣鞯姆椒ㄊ怯衅氐摹Ｋ鼈儾⒉贿m用于評(píng)價(jià)具有復(fù)雜多維描述符的深度學(xué)習(xí)方法的真實(shí)表現(xiàn)。

那么在存在可能偏重的前提下，如何正確設(shè)計(jì)基于機(jī)器學(xué)習(xí)的虛擬篩選的評(píng)價(jià)測(cè)試？如何有效控制這些偏重對(duì)評(píng)價(jià)結(jié)果的影響？作者結(jié)合自己的研究及他人經(jīng)驗(yàn)提出一些參考準(zhǔn)則：

驗(yàn)證數(shù)據(jù)集的適用范圍，如DUD/DUD-E偏重于基于配體二維拓?fù)涮卣鞯姆椒ā?/li>
深刻理解所使用的機(jī)器方法和描述符。
基于簡(jiǎn)單、可解釋的特征定義合適的評(píng)價(jià)基準(zhǔn)線，如采用隨機(jī)森林方法對(duì)單維特征進(jìn)行訓(xùn)練建模。
設(shè)計(jì)合理的對(duì)照實(shí)驗(yàn)來(lái)驗(yàn)證無(wú)因果關(guān)系的偏重（如將高維描述符簡(jiǎn)化為低維特征），幫助挖掘預(yù)測(cè)模型中的決定性特征。
盡可能地引入陰性實(shí)驗(yàn)數(shù)據(jù)，提高數(shù)據(jù)的質(zhì)量等。

如前所述，機(jī)器學(xué)習(xí)得到了人們的廣泛關(guān)注，但是其真實(shí)能力以及可應(yīng)用范圍仍然需要人們謹(jǐn)慎看待。Rarey教授課題組的研究工作揭示了應(yīng)用機(jī)器學(xué)習(xí)方法中可能隱含的問(wèn)題。他們提出的經(jīng)驗(yàn)準(zhǔn)則為客觀評(píng)價(jià)機(jī)器學(xué)習(xí)方法提供了重要的參考。

參考文獻(xiàn)：Sieg, J.; Flachsenberg, F.; Rarey, M. In Need of Bias Control: Evaluating Chemical Data for Machine Learning in Structure-Based Virtual Screening. J. Chem. Inf. Model. 2019, 59, 947-961.
DOI: 10.1021/acs.jcim.8b00712

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【ZT】漢堡大學(xué)Rarey課題組JCIM發(fā)表觀點(diǎn)：當(dāng)虛擬篩選遇上機(jī)器學(xué)習(xí)，我們的初心是啥？

【ZT】漢堡大學(xué)Rarey課題組JCIM發(fā)表觀點(diǎn)：當(dāng)虛擬篩選遇上機(jī)器學(xué)習(xí)，我們的初心是啥？

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【ZT】漢堡大學(xué)Rarey課題組JCIM發(fā)表觀點(diǎn)：當(dāng)虛擬篩選遇上機(jī)器學(xué)習(xí)，我們的初心是啥？

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【ZT】漢堡大學(xué)Rarey課題組JCIM發(fā)表觀點(diǎn)：當(dāng)虛擬篩選遇上機(jī)器學(xué)習(xí)，我們的初心是啥？