SAIR:AI 制藥的數(shù)據(jù)盛宴,還是畫餅充饑?


榴蓮?fù)礎(chǔ)IDD

SAIR 用 520 萬個 AI 生成的復(fù)合物結(jié)構(gòu)填補(bǔ)了數(shù)據(jù)鴻溝,但也無情地揭示了:我們離用預(yù)測結(jié)構(gòu)精準(zhǔn)預(yù)測結(jié)合力,還有十萬八千里。

  1. 海量合成數(shù)據(jù): SAIR 數(shù)據(jù)集通過類似 AlphaFold 3 的共折疊模型,生成了超過 520 萬個 PDB 中沒有的蛋白 - 配體復(fù)合物結(jié)構(gòu),規(guī)??涨?。
  2. 預(yù)測仍是軟肋: 盡管結(jié)構(gòu)質(zhì)量看起來不錯,但無論是傳統(tǒng)打分函數(shù)還是圖神經(jīng)網(wǎng)絡(luò),在預(yù)測真實結(jié)合親和力上都表現(xiàn)平平,相關(guān)性很低。
  3. 模型泛化難題: 用真實 PDB 結(jié)構(gòu)訓(xùn)練的 AI 模型,在 SAIR 這個“合成世界”里水土不服,暴露了從實驗數(shù)據(jù)到生成數(shù)據(jù)的“分布偏移”這一致命問題。

在 AI 制藥領(lǐng)域,我們對數(shù)據(jù)的渴望就像沙漠里的旅人對水的渴望一樣,尤其是高質(zhì)量的 3D 結(jié)構(gòu)數(shù)據(jù)。它是訓(xùn)練那些“聰明的”AI 模型的食糧。

現(xiàn)在,有人端上來一整個大水庫——SAIR 數(shù)據(jù)集。520 萬個蛋白 - 配體復(fù)合物結(jié)構(gòu),聽起來是不是讓人熱血沸騰?

這不是從 PDB 數(shù)據(jù)庫里扒下來的陳年舊貨,而是全新的、合成的結(jié)構(gòu)。研究者們沒去費(fèi)力地結(jié)晶,而是用了一個叫 Boltz-1x 的“黑科技”,一個受 AlphaFold 3 啟發(fā)的共折疊模型,直接把蛋白和配體“扔”進(jìn)去,讓 AI 預(yù)測的結(jié)合構(gòu)象。

這個操作相當(dāng)大膽。他們繞過了實驗解析結(jié)構(gòu)的漫長周期,直接用算力“創(chuàng)造”數(shù)據(jù)。為了保證這些數(shù)據(jù)是“全新”的,他們還特意排除了所有 PDB 里已有的結(jié)構(gòu)。

結(jié)構(gòu)質(zhì)量怎么樣?用 PoseBusters 檢查下來,97% 都過關(guān)了,聽起來不錯,至少 AI 畫出來的構(gòu)象大體上還算靠譜。但真正的考驗來了:這些漂亮的 3D 模型能幫我們預(yù)測結(jié)合力嗎?這才是藥物研發(fā)里真正值錢的問題。

結(jié)果有點……尷尬。

不管是老派的 Vina 打分,還是時髦的 3D CNN 和 GNN 模型,在 SAIR 數(shù)據(jù)集上預(yù)測的親和力跟實驗值之間的相關(guān)性(Spearman 系數(shù)只有 0.25 左右)低得可憐。這就像你有了一張超高清的地圖,但上面的距離標(biāo)注全是錯的。地圖再好看,也找不到寶藏。

結(jié)構(gòu)預(yù)測的成功,并不意味著我們自動解決了親和力預(yù)測這個更棘手的難題。

更有意思的是,研究者發(fā)現(xiàn),拿 PDB 里的“真家伙”訓(xùn)練出來的模型,一碰到 SAIR 這些“人造肉”,立馬就懵了,完全不認(rèn)識。這就是所謂的“分布偏移”(distribution shift)。

這又我們潑了一盆冷水:我們辛苦訓(xùn)練的 AI 模型,可能只是個在特定考場里表現(xiàn)出色的“刷題高手”,換個考場就原形畢露。從實驗結(jié)構(gòu)到生成結(jié)構(gòu),中間有一道看不見的鴻溝。

所以,SAIR 沒能變出預(yù)測親和力的“魔杖”。但它是不是就沒用了?當(dāng)然不是。它像一面鏡子,照出了我們當(dāng)前 AI 模型的短板和盲區(qū),告訴我們必須開發(fā)能夠適應(yīng)合成數(shù)據(jù)的模型。

而且,它還揭示了一個非??岬默F(xiàn)象:同一個蛋白,為了結(jié)合不同的配體,口袋的形狀可以千變?nèi)f化——有個例子里,一個蛋白竟然為 345 個不同配體演化出 1000 多種口袋構(gòu)象。這對于理解蛋白的動態(tài)性和柔性,價值巨大。

SAIR 是一項了不起的工程,它給了我們一個巨大的沙盒。但它也響亮地宣告:朋友們,別高興得太早,真正的硬仗還在后頭。

??Title: SAIR: Enabling deep learning for protein-ligand interactions with a synthetic structural dataset ??Paper: https://www.biorxiv.org/content/10.1101/2025.06.17.660168v1


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容