近年來(lái)大數(shù)據(jù)和機(jī)器學(xué)習(xí)方面的突破性進(jìn)展,使得基于機(jī)器學(xué)習(xí)的藥物設(shè)計(jì)成為藥物研發(fā)領(lǐng)域中追逐的新熱點(diǎn)。應(yīng)用機(jī)器學(xué)習(xí)方法在虛擬篩選中的成功案例也屢見(jiàn)報(bào)道。然而機(jī)器學(xué)習(xí)所建立的模型基本是一個(gè)黑匣子(black box),大多數(shù)情況下人們無(wú)法獲知數(shù)據(jù)中的哪些特征是決定性的,也不清楚模型預(yù)測(cè)的“真實(shí)結(jié)果”是否有“真實(shí)原因”可循,抑或僅僅是由于數(shù)據(jù)集本身內(nèi)容的偏重所致?對(duì)于基于機(jī)器學(xué)習(xí)方法的虛擬篩選,如何評(píng)價(jià)其真實(shí)的性能?需要建立什么樣的標(biāo)準(zhǔn)測(cè)試集,發(fā)展什么樣的評(píng)價(jià)策略?德國(guó)漢堡大學(xué)Rarey教授課題組針對(duì)這些問(wèn)題進(jìn)行了分析,最近在美國(guó)化學(xué)會(huì)出版的Journal of Chemical Information and Modeling雜志"Machine-Learning in Drug Discovery"??习l(fā)表了觀點(diǎn)(J. Chem. Inf. Model. 2019, 59, 947-961)。
作者首先選擇三個(gè)常用的虛擬篩選標(biāo)準(zhǔn)測(cè)試集作為研究對(duì)象,包括DUD,DUD-E和MUV。DUD和DUD-E由Shoichet等人基于ZINC數(shù)據(jù)庫(kù)發(fā)展而來(lái),用于評(píng)價(jià)基于結(jié)構(gòu)的虛擬篩選方法(如分子對(duì)接方法)。MUV則由Rohrer等人基于PubChem數(shù)據(jù)庫(kù)構(gòu)建獲得,用于評(píng)價(jià)基于配體的虛擬篩選方法。以這三個(gè)標(biāo)準(zhǔn)測(cè)試集的無(wú)偏重特征及其組合為描述符,作者采用隨機(jī)森林方法建立虛擬篩選的預(yù)測(cè)模型,并通過(guò)兩種交叉驗(yàn)證實(shí)驗(yàn)(如圖-1(1)和(2)所示)對(duì)模型的篩選性能進(jìn)行評(píng)價(jià)。
三個(gè)標(biāo)準(zhǔn)測(cè)試集的無(wú)偏重特征在活性化合物和非活性化合物中具有近似的均值和方差值。作者認(rèn)為以無(wú)偏重特征作為篩選條件,其篩選效果與隨機(jī)篩選相當(dāng),虛篩富集曲線的AUC值應(yīng)接近0.5。然而,基于機(jī)器學(xué)習(xí)方法的虛篩結(jié)果顯示(圖-2),即使采用單個(gè)特征,隨機(jī)森林方法仍然能夠較好地區(qū)分這三個(gè)標(biāo)準(zhǔn)測(cè)試集中的活性與非活性化合物。特別是當(dāng)多個(gè)特征組合時(shí),在DUD和DUD-E標(biāo)準(zhǔn)測(cè)試集上,靶標(biāo)內(nèi)和靶標(biāo)間的交叉驗(yàn)證實(shí)驗(yàn)所得的AUC值接近1.0和0.8。這意味著,對(duì)于機(jī)器學(xué)習(xí)方法來(lái)說(shuō),低維度特征已經(jīng)足夠用于區(qū)分活性與非活性化合物。作者因此認(rèn)為:在對(duì)采用更復(fù)雜特征描述符的機(jī)器學(xué)習(xí)方法進(jìn)行評(píng)價(jià)時(shí),應(yīng)當(dāng)選擇基于低維度描述符的結(jié)果作為一個(gè)合適的評(píng)價(jià)基準(zhǔn)線。
作者進(jìn)一步以DUD/DUD-E為標(biāo)準(zhǔn)測(cè)試集,對(duì)兩種基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法DeepVS和基于格點(diǎn)的三維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行評(píng)價(jià)。前者通過(guò)配體分子中每個(gè)原子的局部相鄰原子的基本特征(如原子間距離,原子類型,原子電荷等)來(lái)描述蛋白-配體之間的相互作用(圖-3(a))。后者則是將配體分子的三維構(gòu)象置于覆蓋蛋白結(jié)合口袋的格點(diǎn)盒子中,采用基于格點(diǎn)的三維描述符來(lái)表征蛋白-配體之間的相互作用(圖-3(b))。
文獻(xiàn)報(bào)道DeepVS方法在DUD測(cè)試集上經(jīng)留一法交叉驗(yàn)證獲得的平均AUC值為0.81。作者摒棄蛋白部分信息,僅基于配體分子的隨機(jī)構(gòu)象用于構(gòu)建DeepVS方法的預(yù)測(cè)模型,經(jīng)留一法交叉驗(yàn)證獲得的平均AUC值為0.79。這與基于三維描述符所得的結(jié)果沒(méi)有顯著差異。與采用配體二維拓?fù)涮卣鞯碾S機(jī)森林方法在相同標(biāo)準(zhǔn)測(cè)試集上的預(yù)測(cè)結(jié)果相比(平均AUC值為0.78),DeepVS方法也沒(méi)有體現(xiàn)出明顯的優(yōu)勢(shì)。作者采用基于格點(diǎn)的三維卷積神經(jīng)網(wǎng)絡(luò)方法在DUD-E測(cè)試集上進(jìn)行類似的對(duì)比實(shí)驗(yàn)也獲得了相同的結(jié)論。作者對(duì)此給出的解釋是:DUD/DUD-E測(cè)試集的構(gòu)建原理表明配體的二維拓?fù)浣Y(jié)構(gòu)是區(qū)分活性與非活性化合物的決定性特征。DeepVS和基于格點(diǎn)的三維卷積神經(jīng)網(wǎng)絡(luò)方法的三維描述符中隱式地包含了二維拓?fù)涮卣鳌R虼?,配體的二維拓?fù)涮卣髯阋杂糜趯?duì)活性和非活性化合物進(jìn)行有效區(qū)分。這也表明,DUD和DUD-E標(biāo)準(zhǔn)測(cè)試集對(duì)于基于配體二維拓?fù)涮卣鞯姆椒ㄊ怯衅氐?。它們并不適用于評(píng)價(jià)具有復(fù)雜多維描述符的深度學(xué)習(xí)方法的真實(shí)表現(xiàn)。
那么在存在可能偏重的前提下,如何正確設(shè)計(jì)基于機(jī)器學(xué)習(xí)的虛擬篩選的評(píng)價(jià)測(cè)試?如何有效控制這些偏重對(duì)評(píng)價(jià)結(jié)果的影響?作者結(jié)合自己的研究及他人經(jīng)驗(yàn)提出一些參考準(zhǔn)則:
- 驗(yàn)證數(shù)據(jù)集的適用范圍,如DUD/DUD-E偏重于基于配體二維拓?fù)涮卣鞯姆椒ā?/li>
- 深刻理解所使用的機(jī)器方法和描述符。
- 基于簡(jiǎn)單、可解釋的特征定義合適的評(píng)價(jià)基準(zhǔn)線,如采用隨機(jī)森林方法對(duì)單維特征進(jìn)行訓(xùn)練建模。
- 設(shè)計(jì)合理的對(duì)照實(shí)驗(yàn)來(lái)驗(yàn)證無(wú)因果關(guān)系的偏重(如將高維描述符簡(jiǎn)化為低維特征),幫助挖掘預(yù)測(cè)模型中的決定性特征。
- 盡可能地引入陰性實(shí)驗(yàn)數(shù)據(jù),提高數(shù)據(jù)的質(zhì)量等。
如前所述,機(jī)器學(xué)習(xí)得到了人們的廣泛關(guān)注,但是其真實(shí)能力以及可應(yīng)用范圍仍然需要人們謹(jǐn)慎看待。Rarey教授課題組的研究工作揭示了應(yīng)用機(jī)器學(xué)習(xí)方法中可能隱含的問(wèn)題。他們提出的經(jīng)驗(yàn)準(zhǔn)則為客觀評(píng)價(jià)機(jī)器學(xué)習(xí)方法提供了重要的參考。
參考文獻(xiàn):Sieg, J.; Flachsenberg, F.; Rarey, M. In Need of Bias Control: Evaluating Chemical Data for Machine Learning in Structure-Based Virtual Screening. J. Chem. Inf. Model. 2019, 59, 947-961.
DOI: 10.1021/acs.jcim.8b00712