2022-08-04

Nat Methods | 機(jī)器學(xué)習(xí)精準(zhǔn)標(biāo)注蛋白,細(xì)胞器和其他亞細(xì)胞結(jié)構(gòu)

原創(chuàng)?存在一棵樹(shù)?圖靈基因?2022-08-04 09:41?發(fā)表于江蘇

收錄于合集#前沿分子生物學(xué)技術(shù)

撰文:存在一棵樹(shù)

IF=?47.990

推薦度:?????

亮點(diǎn):

本文開(kāi)發(fā)了一種完全自我監(jiān)督的蛋白質(zhì)定位分析和聚類的深度學(xué)習(xí)方法,Cytoself,可生成高分辨率的蛋白質(zhì)亞細(xì)胞定位圖譜。


2022年7月25日陳·扎克伯格生物中心的Loic A. RoyerManuel D. Leonetti聯(lián)合在Nature Methods上發(fā)表了Self-supervised deep learning encodes high-resolution features of protein subcellular localization?的文章。該團(tuán)隊(duì)開(kāi)發(fā)了一種完全自我監(jiān)督的蛋白質(zhì)定位分析和聚類的深度學(xué)習(xí)方法,Cytoself,并介紹了其開(kāi)發(fā)、驗(yàn)證和使用。


基于顯微鏡的系統(tǒng)性大規(guī)模細(xì)胞分析正成為生物學(xué)發(fā)現(xiàn)的重要工具,其在藥物篩選、藥物分析和蛋白質(zhì)亞細(xì)胞定位圖譜中發(fā)揮著關(guān)鍵作用。特別是,基于免疫熒光或內(nèi)源性熒光標(biāo)記的大規(guī)模數(shù)據(jù)集輔助以計(jì)算機(jī)視覺(jué)和機(jī)器深度學(xué)習(xí),從而全面捕獲人類和酵母蛋白質(zhì)組的定位模式。?計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)的最新進(jìn)展表明摒棄手動(dòng)標(biāo)記是可能的,可通過(guò)監(jiān)督方法改善其性能。自我監(jiān)督模型的訓(xùn)練是通過(guò)制定一個(gè)輔助的借口任務(wù),比如保留部分?jǐn)?shù)據(jù),指示模型預(yù)測(cè)其隱藏部分,而訓(xùn)練一個(gè)模型預(yù)測(cè)圖像中的隱藏部分會(huì)迫使其識(shí)別該它們的重要特征,并可用于比較和分類?;诖耍搱F(tuán)隊(duì)開(kāi)發(fā)了一種基于深度學(xué)習(xí)的完全自我監(jiān)督的蛋白質(zhì)定位分析和聚類方法,Cytoself。

深度學(xué)習(xí)方法的先決條件是收集在統(tǒng)一條件下獲得的熒光標(biāo)記蛋白質(zhì)的高質(zhì)量圖像,OpenCell活細(xì)胞共聚焦圖像數(shù)據(jù)集包含?1,311?種內(nèi)源性標(biāo)記蛋白質(zhì)。該團(tuán)隊(duì)在18.59視野?(FOV)?中對(duì)給定蛋白質(zhì)的定位進(jìn)行了成像,然后從每個(gè)包含?1-3?個(gè)細(xì)胞的FOV中提取大約45個(gè)裁剪圖像,每個(gè)蛋白質(zhì)共有800個(gè)裁剪圖像。如圖1所示,Cytoself基于矢量量化變分自動(dòng)編碼器架構(gòu)?(VQ-VAE),在經(jīng)典的VQ-VAE中,圖像被編碼成一個(gè)量化的潛在表示,一個(gè)矢量,然后解碼重建輸入圖像;而該團(tuán)隊(duì)開(kāi)發(fā)了一種變體,它使用分裂向量量化方案來(lái)提高大空間尺度下的量化效果。將該模型應(yīng)用于每個(gè)裁剪圖像,自我監(jiān)督模型訓(xùn)練包含兩個(gè)借口任務(wù):首先是像原始?VQ-VAE?模型一樣對(duì)圖像進(jìn)行編碼然后解碼;其次是僅根據(jù)編碼表示來(lái)預(yù)測(cè)與圖像相關(guān)的蛋白質(zhì)標(biāo)識(shí)符,旨在預(yù)測(cè)每個(gè)圖像對(duì)應(yīng)于1,311?種蛋白質(zhì)中的哪一種。


隨后,該團(tuán)隊(duì)使用統(tǒng)一流形近似和投影(UMAP)算法對(duì)從所有圖像獲得的全局定位編碼集進(jìn)行降維。如圖2所示,獲得一個(gè)高分辨率蛋白質(zhì)定位圖譜,代表蛋白質(zhì)亞細(xì)胞定位的全部多樣性;其中央?UMAP?中的每個(gè)點(diǎn)都根據(jù)11個(gè)不同的蛋白質(zhì)定位類別(線粒體、囊泡、核質(zhì)、細(xì)胞質(zhì)、核膜、ER、核仁、高爾基體、染色質(zhì)結(jié)構(gòu)域)進(jìn)行著色。圖中大量未標(biāo)記點(diǎn)(灰點(diǎn))則主要對(duì)應(yīng)于表現(xiàn)出混合定位模式的蛋白質(zhì),其中較為明顯的是散布在核區(qū)和非核區(qū)之間的蛋白質(zhì)帶。


為驗(yàn)證Cytoself的聚類性能,該團(tuán)隊(duì)對(duì)比了其與無(wú)監(jiān)督?(CellProfiler)?或自我監(jiān)督?(Cell inpainting)?圖像特征化方法應(yīng)用于?OpenCell?圖像數(shù)據(jù)集的結(jié)果,驗(yàn)證Cytoself獲得的分辨率優(yōu)于另外兩種方法。自我監(jiān)督方法的主要優(yōu)勢(shì)在于它們不受人工注釋的質(zhì)量、完整性或粒度的限制,并且可以揭示現(xiàn)有數(shù)據(jù)庫(kù)中未明確存在的蛋白質(zhì)定位的細(xì)微差異。

為了能夠剖析和理解構(gòu)成這些表征的特征并解釋它們的意義,該團(tuán)隊(duì)創(chuàng)建了有助于每種蛋白質(zhì)定位編碼的主要成分的特征譜。如圖3所示,首先通過(guò)執(zhí)行分層雙聚類獲得了特征的有意義的光譜排序進(jìn)行定量分析;接下來(lái)使用特征光譜預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位,且Cytoself?可以對(duì)來(lái)自?OpenCell?以外的數(shù)據(jù)集的圖像進(jìn)行合理的蛋白質(zhì)定位預(yù)測(cè)。


綜上所述,本文開(kāi)發(fā)的Cytoself模型可生成高分辨率定位圖譜,不僅能夠描繪細(xì)胞器,還能夠描繪蛋白質(zhì)復(fù)合物;此外,還可以用特征譜表示每個(gè)圖像,以更好地分析數(shù)據(jù)中存在的定位模式的全部?jī)?nèi)容。由于蛋白質(zhì)的定位與其細(xì)胞功能高度相關(guān),因此Cytoself將成為對(duì)未知或研究不足的蛋白質(zhì)進(jìn)行初步功能預(yù)測(cè)以及定量研究細(xì)胞擾動(dòng)和細(xì)胞狀態(tài)變化對(duì)蛋白質(zhì)亞細(xì)胞定位影響的寶貴工具。

教授介紹

Loic Royer博士是陳·扎克伯格生物中心的小組負(fù)責(zé)人。Royer最初學(xué)習(xí)工程學(xué),然后獲得人工智能碩士學(xué)位,隨后在德國(guó)德累斯頓理工大學(xué)獲得生物信息學(xué)博士學(xué)位,后繼續(xù)在Gene Myers博士的實(shí)驗(yàn)室接受博士后培訓(xùn)。Royer認(rèn)為揭示生物體發(fā)育之謎需要計(jì)算機(jī)科學(xué)、先進(jìn)顯微鏡和生物學(xué)方面的專業(yè)知識(shí)。為此,Royer的多學(xué)科團(tuán)隊(duì)設(shè)計(jì)和構(gòu)建了新型最先進(jìn)的光片顯微鏡,開(kāi)發(fā)了基于深度學(xué)習(xí)的圖像處理和分析算法,并利用這些技術(shù)構(gòu)建了脊椎動(dòng)物發(fā)育的時(shí)間分辨和多模態(tài)圖譜,使用斑馬魚(yú)作為模式生物。

參考文獻(xiàn)

Kobayashi, H., Cheveralls, K.C., Leonetti, M.D. et al. Self-supervised deep learning encodes high-resolution features of protein subcellular localization. Nat Methods (2022).

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 如何選擇蛋白質(zhì)食物 1、牛羊肉 牛羊肉性溫,是冬季暖身的好選擇,它們能夠?yàn)樯眢w提供大量的優(yōu)質(zhì)蛋白質(zhì),提高身體代謝和...
    空間失眠閱讀 125評(píng)論 0 0
  • Cli Cancer Res | TB-403抗體療法臨床試驗(yàn),可治療兒童髓母細(xì)胞瘤等癌癥 原創(chuàng)圖靈基因圖靈基因2...
    圖靈基因閱讀 233評(píng)論 0 0
  • Science | OpenCell:人類細(xì)胞蛋白質(zhì)組的系統(tǒng)級(jí)描述 原創(chuàng)圖靈基因圖靈基因2022-04-06 14...
    圖靈基因閱讀 215評(píng)論 0 0
  • 背景:苯并(a)芘(BaP)是受污染食品中的一種致癌化合物。低劑量和頻繁接觸環(huán)境致癌物 BaP 對(duì)消化系統(tǒng)的影響尚...
    朗月齋主閱讀 158評(píng)論 0 3
  • 提醒自己不要熬夜,不要熬夜,身體最重要! 昨天晚上回去已經(jīng)十點(diǎn)多了,手機(jī)一不小心按了緊急呼救模式,電話短信發(fā)到了我...
    九畹小童鞋閱讀 325評(píng)論 0 4

友情鏈接更多精彩內(nèi)容