機器學(xué)習(xí)(Machine Learning,ML)屬于人工智能的子領(lǐng)域,它是研究機器能夠熟練執(zhí)行智能任務(wù)的過程和實用性,而無需為這些任務(wù)明確編程。最近,人工智能系統(tǒng)已經(jīng)接近人類在一些任務(wù)上的表現(xiàn),如游戲和圖像識別,但這些是在非常狹窄和集中的領(lǐng)域。盡管如此,人工智能的各種形式如今已成功地應(yīng)用于大范圍的領(lǐng)域:從機器人、語音翻譯和圖像分析,再到藥物分子設(shè)計的應(yīng)用。
在藥物發(fā)現(xiàn)中,最好的人工智能不一定是能夠自主設(shè)計一種新藥的單一人工智能,而是一種或多種不同的人工智能,能夠在整個藥物發(fā)現(xiàn)過程中更好地理解和設(shè)計新的輸入,從靶點選擇、命中識別、引導(dǎo)優(yōu)化到臨床前研究,最后到臨床試驗。
人工智能在藥物發(fā)現(xiàn)中能起著關(guān)鍵作用,特別是人工神經(jīng)網(wǎng)絡(luò),如深度神經(jīng)網(wǎng)絡(luò)或循環(huán)網(wǎng)絡(luò),驅(qū)動著這一領(lǐng)域的發(fā)展。在性質(zhì)或活性預(yù)測方面的許多應(yīng)用,如物理化學(xué)和ADMET性質(zhì),定量結(jié)構(gòu)-性質(zhì)關(guān)系(QSPR)或定量結(jié)構(gòu)-活性關(guān)系(QSAR)等技術(shù)支撐著這方面的應(yīng)用。人工智能推動生物活性分子朝著期望的特性發(fā)展,結(jié)合合成計劃和易合成的可行性,計算機自動發(fā)現(xiàn)藥物的可能性越來越大。
人工智能包括機器學(xué)習(xí)等技術(shù)是為學(xué)習(xí)和預(yù)測新特性建立的,尤其是人工神經(jīng)網(wǎng)絡(luò),如深度神經(jīng)網(wǎng)絡(luò)(deep neural netwroks, DNNs)或遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNNs),推動了人工智能的發(fā)展。
自20世紀(jì)60年代以來,藥物化學(xué)就開始使用人工智能應(yīng)用于新化合物的設(shè)計,其中有標(biāo)記訓(xùn)練數(shù)據(jù)集的訓(xùn)練模型被廣泛應(yīng)用于分子設(shè)計中。定量構(gòu)效關(guān)系(QSAR)方法廣泛用于預(yù)測化學(xué)結(jié)構(gòu)的性質(zhì),如logp、溶解度和生物活性。相反,不依賴于標(biāo)簽的無監(jiān)督機器學(xué)習(xí)也在醫(yī)學(xué)和化學(xué)中使用,例如層次聚類、算法和主成分分析等用于分析大分子庫。
藥物化學(xué)研究中,當(dāng)深度學(xué)習(xí)體系結(jié)構(gòu)在性能預(yù)測方面顯示出好結(jié)果時,新型人工智能技術(shù)受到了廣泛關(guān)注。在Merck Kaggle和NIH Tox21挑戰(zhàn)中,與基礎(chǔ)機器學(xué)習(xí)方法相比,深度神經(jīng)網(wǎng)絡(luò)顯示出更好的預(yù)測性。
在藥物發(fā)現(xiàn)中,臨床候選化合物分子必須滿足一組不同的標(biāo)準(zhǔn)。除了對生物靶的有效效力外,該化合物應(yīng)對不針對的靶標(biāo)具有相當(dāng)?shù)倪x擇性,并且具有良好的物理化學(xué)和ADMET特性(吸收、分布、代謝、排泄和毒性特性)。因此,化合物優(yōu)化是一個多維度的挑戰(zhàn)。在多維優(yōu)化過程中,采用了大量的硅預(yù)測方法,特別是一些機器學(xué)習(xí)技術(shù)已經(jīng)被成功應(yīng)用,例如支持向量機器(support vector machines, SVM)、隨機森林(Random Forests, RF)或貝葉斯學(xué)習(xí)。
在沒有參考化合物時,從頭設(shè)計開發(fā)新的活性分子需要約25年。由于人工智能領(lǐng)域的發(fā)展,從頭設(shè)計化合物最近出現(xiàn)有一些新的進(jìn)展。一種有趣的方法是變分自動編碼器,它由兩個神經(jīng)網(wǎng)絡(luò)、編碼器網(wǎng)絡(luò)和解碼器網(wǎng)絡(luò)組成。編碼器網(wǎng)絡(luò)將由SMILES表示定義的化學(xué)結(jié)構(gòu)轉(zhuǎn)換為一個實值連續(xù)向量作為潛在空間。解碼器能將來自該潛在空間的矢量轉(zhuǎn)換為化學(xué)結(jié)構(gòu)。
這一特性被用于尋找潛在空間的最優(yōu)解決方案,并通過解碼網(wǎng)絡(luò)將這些向量反向轉(zhuǎn)化為真實分子結(jié)構(gòu)。對于大多數(shù)反編譯,一個分子占主導(dǎo)地位,但存在細(xì)微的結(jié)構(gòu)修改的可能性較小。使用潛在空間代表來訓(xùn)練基于QED藥物相似性評分和合成可及性評分SAS的模型。可以得到一條具有改進(jìn)目標(biāo)性質(zhì)的分子路徑。在另一份文章中,將這種變分自動編碼器的性能與對抗性自動編碼器進(jìn)行了比較。對抗式自動編碼器由產(chǎn)生新型化學(xué)結(jié)構(gòu)的生成模型組成。
人工智能近年來備受關(guān)注,并已成功進(jìn)入藥物發(fā)現(xiàn)領(lǐng)域。許多機器學(xué)習(xí)方法,如QSAR方法、SVMs或隨機森林法,都是藥物發(fā)現(xiàn)過程中建立起來的?;谏窠?jīng)網(wǎng)絡(luò)的新算法,如深度神經(jīng)網(wǎng)絡(luò),為屬性預(yù)測提供了進(jìn)一步的改進(jìn),這在許多比較深學(xué)習(xí)與經(jīng)典機器學(xué)習(xí)的基準(zhǔn)研究中已經(jīng)顯現(xiàn)出來。這些新算法在許多不同應(yīng)用中的適用性已經(jīng)得到證明,包括物理化學(xué)性質(zhì)、生物活性和毒性等。
多任務(wù)學(xué)習(xí)的一些好處也得到了證明,其中相關(guān)屬性的預(yù)測受益于聯(lián)合學(xué)習(xí)。未來的改進(jìn)可以通過學(xué)習(xí)一種適應(yīng)當(dāng)前化學(xué)的代表性問題來實現(xiàn)。首先,我們已經(jīng)努力從這些問題中識別相關(guān)的化學(xué)特征,也指出了這些算法的一個主要挑戰(zhàn),即它們的“黑匣子”特征。從深層神經(jīng)網(wǎng)絡(luò)中提取某些化合物是非常困難的,如果人工智能越來越多地引導(dǎo)合成這些資源,這就變得很相關(guān)了。
人工智能在藥物發(fā)現(xiàn)中的應(yīng)用得益于開源實現(xiàn),它提供了對軟件庫的訪問,允許實現(xiàn)復(fù)雜的神經(jīng)網(wǎng)絡(luò)。因此,像TensorFlow或Keras這樣的開放源碼庫經(jīng)常被用于在藥物發(fā)現(xiàn)中實現(xiàn)不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。此外,Deepchem庫提供了一個圍繞TensorFlow的包裝器,它簡化了化學(xué)結(jié)構(gòu)的處理。
近年來,人工智能系統(tǒng)的應(yīng)用范圍大大擴大,包括從頭設(shè)計或逆合成分析,預(yù)示我們將在有大型數(shù)據(jù)集可用的領(lǐng)域看到越來越多的應(yīng)用。隨著在這些不同領(lǐng)域的進(jìn)展,我們可以預(yù)料到越來越多的計算機將用于自動藥物發(fā)現(xiàn)。尤其是機器人技術(shù)的巨大進(jìn)步將加速這一進(jìn)展。然而,人工智能還遠(yuǎn)未達(dá)到完美。具有良好理論背景的其他技術(shù)仍然很重要。特別是,由于它們受益于計算能力的提高,因此可以用更精確的方法模擬更大的系統(tǒng)。
作者:曾文亮
分子描述符和分子指紋
分子描述符/指紋計算軟件
結(jié)構(gòu)預(yù)處理和數(shù)據(jù)預(yù)處理
算法簡單介紹和分類
KNIME軟件介紹
基于sklearn的特征選擇
模型的評價與解釋
ADMET介紹
KNIME軟件構(gòu)建ADMET模型
ADMET計算軟件和實操
噪聲過濾和相似性搜索
機器學(xué)習(xí)模型構(gòu)建和預(yù)測
分子對接
ADMET評估