Nat Methods | 機(jī)器學(xué)習(xí)精準(zhǔn)標(biāo)注蛋白,細(xì)胞器和其他亞細(xì)胞結(jié)構(gòu)
原創(chuàng)?存在一棵樹(shù)?圖靈基因?2022-08-04 09:41?發(fā)表于江蘇
收錄于合集#前沿分子生物學(xué)技術(shù)
撰文:存在一棵樹(shù)
IF=?47.990
推薦度:?????
亮點(diǎn):
本文開(kāi)發(fā)了一種完全自我監(jiān)督的蛋白質(zhì)定位分析和聚類的深度學(xué)習(xí)方法,Cytoself,可生成高分辨率的蛋白質(zhì)亞細(xì)胞定位圖譜。

2022年7月25日陳·扎克伯格生物中心的Loic A. Royer與Manuel D. Leonetti聯(lián)合在《Nature Methods》上發(fā)表了“Self-supervised deep learning encodes high-resolution features of protein subcellular localization”?的文章。該團(tuán)隊(duì)開(kāi)發(fā)了一種完全自我監(jiān)督的蛋白質(zhì)定位分析和聚類的深度學(xué)習(xí)方法,Cytoself,并介紹了其開(kāi)發(fā)、驗(yàn)證和使用。

基于顯微鏡的系統(tǒng)性大規(guī)模細(xì)胞分析正成為生物學(xué)發(fā)現(xiàn)的重要工具,其在藥物篩選、藥物分析和蛋白質(zhì)亞細(xì)胞定位圖譜中發(fā)揮著關(guān)鍵作用。特別是,基于免疫熒光或內(nèi)源性熒光標(biāo)記的大規(guī)模數(shù)據(jù)集輔助以計(jì)算機(jī)視覺(jué)和機(jī)器深度學(xué)習(xí),從而全面捕獲人類和酵母蛋白質(zhì)組的定位模式。?計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)的最新進(jìn)展表明摒棄手動(dòng)標(biāo)記是可能的,可通過(guò)監(jiān)督方法改善其性能。自我監(jiān)督模型的訓(xùn)練是通過(guò)制定一個(gè)輔助的借口任務(wù),比如保留部分?jǐn)?shù)據(jù),指示模型預(yù)測(cè)其隱藏部分,而訓(xùn)練一個(gè)模型預(yù)測(cè)圖像中的隱藏部分會(huì)迫使其識(shí)別該它們的重要特征,并可用于比較和分類?;诖耍搱F(tuán)隊(duì)開(kāi)發(fā)了一種基于深度學(xué)習(xí)的完全自我監(jiān)督的蛋白質(zhì)定位分析和聚類方法,Cytoself。
深度學(xué)習(xí)方法的先決條件是收集在統(tǒng)一條件下獲得的熒光標(biāo)記蛋白質(zhì)的高質(zhì)量圖像,OpenCell活細(xì)胞共聚焦圖像數(shù)據(jù)集包含?1,311?種內(nèi)源性標(biāo)記蛋白質(zhì)。該團(tuán)隊(duì)在18.59視野?(FOV)?中對(duì)給定蛋白質(zhì)的定位進(jìn)行了成像,然后從每個(gè)包含?1-3?個(gè)細(xì)胞的FOV中提取大約45個(gè)裁剪圖像,每個(gè)蛋白質(zhì)共有800個(gè)裁剪圖像。如圖1所示,Cytoself基于矢量量化變分自動(dòng)編碼器架構(gòu)?(VQ-VAE),在經(jīng)典的VQ-VAE中,圖像被編碼成一個(gè)量化的潛在表示,一個(gè)矢量,然后解碼重建輸入圖像;而該團(tuán)隊(duì)開(kāi)發(fā)了一種變體,它使用分裂向量量化方案來(lái)提高大空間尺度下的量化效果。將該模型應(yīng)用于每個(gè)裁剪圖像,自我監(jiān)督模型訓(xùn)練包含兩個(gè)借口任務(wù):首先是像原始?VQ-VAE?模型一樣對(duì)圖像進(jìn)行編碼然后解碼;其次是僅根據(jù)編碼表示來(lái)預(yù)測(cè)與圖像相關(guān)的蛋白質(zhì)標(biāo)識(shí)符,旨在預(yù)測(cè)每個(gè)圖像對(duì)應(yīng)于1,311?種蛋白質(zhì)中的哪一種。

隨后,該團(tuán)隊(duì)使用統(tǒng)一流形近似和投影(UMAP)算法對(duì)從所有圖像獲得的全局定位編碼集進(jìn)行降維。如圖2所示,獲得一個(gè)高分辨率蛋白質(zhì)定位圖譜,代表蛋白質(zhì)亞細(xì)胞定位的全部多樣性;其中央?UMAP?中的每個(gè)點(diǎn)都根據(jù)11個(gè)不同的蛋白質(zhì)定位類別(線粒體、囊泡、核質(zhì)、細(xì)胞質(zhì)、核膜、ER、核仁、高爾基體、染色質(zhì)結(jié)構(gòu)域)進(jìn)行著色。圖中大量未標(biāo)記點(diǎn)(灰點(diǎn))則主要對(duì)應(yīng)于表現(xiàn)出混合定位模式的蛋白質(zhì),其中較為明顯的是散布在核區(qū)和非核區(qū)之間的蛋白質(zhì)帶。

為驗(yàn)證Cytoself的聚類性能,該團(tuán)隊(duì)對(duì)比了其與無(wú)監(jiān)督?(CellProfiler)?或自我監(jiān)督?(Cell inpainting)?圖像特征化方法應(yīng)用于?OpenCell?圖像數(shù)據(jù)集的結(jié)果,驗(yàn)證Cytoself獲得的分辨率優(yōu)于另外兩種方法。自我監(jiān)督方法的主要優(yōu)勢(shì)在于它們不受人工注釋的質(zhì)量、完整性或粒度的限制,并且可以揭示現(xiàn)有數(shù)據(jù)庫(kù)中未明確存在的蛋白質(zhì)定位的細(xì)微差異。
為了能夠剖析和理解構(gòu)成這些表征的特征并解釋它們的意義,該團(tuán)隊(duì)創(chuàng)建了有助于每種蛋白質(zhì)定位編碼的主要成分的特征譜。如圖3所示,首先通過(guò)執(zhí)行分層雙聚類獲得了特征的有意義的光譜排序進(jìn)行定量分析;接下來(lái)使用特征光譜預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位,且Cytoself?可以對(duì)來(lái)自?OpenCell?以外的數(shù)據(jù)集的圖像進(jìn)行合理的蛋白質(zhì)定位預(yù)測(cè)。

綜上所述,本文開(kāi)發(fā)的Cytoself模型可生成高分辨率定位圖譜,不僅能夠描繪細(xì)胞器,還能夠描繪蛋白質(zhì)復(fù)合物;此外,還可以用特征譜表示每個(gè)圖像,以更好地分析數(shù)據(jù)中存在的定位模式的全部?jī)?nèi)容。由于蛋白質(zhì)的定位與其細(xì)胞功能高度相關(guān),因此Cytoself將成為對(duì)未知或研究不足的蛋白質(zhì)進(jìn)行初步功能預(yù)測(cè)以及定量研究細(xì)胞擾動(dòng)和細(xì)胞狀態(tài)變化對(duì)蛋白質(zhì)亞細(xì)胞定位影響的寶貴工具。
教授介紹

Loic Royer博士是陳·扎克伯格生物中心的小組負(fù)責(zé)人。Royer最初學(xué)習(xí)工程學(xué),然后獲得人工智能碩士學(xué)位,隨后在德國(guó)德累斯頓理工大學(xué)獲得生物信息學(xué)博士學(xué)位,后繼續(xù)在Gene Myers博士的實(shí)驗(yàn)室接受博士后培訓(xùn)。Royer認(rèn)為揭示生物體發(fā)育之謎需要計(jì)算機(jī)科學(xué)、先進(jìn)顯微鏡和生物學(xué)方面的專業(yè)知識(shí)。為此,Royer的多學(xué)科團(tuán)隊(duì)設(shè)計(jì)和構(gòu)建了新型最先進(jìn)的光片顯微鏡,開(kāi)發(fā)了基于深度學(xué)習(xí)的圖像處理和分析算法,并利用這些技術(shù)構(gòu)建了脊椎動(dòng)物發(fā)育的時(shí)間分辨和多模態(tài)圖譜,使用斑馬魚(yú)作為模式生物。
參考文獻(xiàn)
Kobayashi, H., Cheveralls, K.C., Leonetti, M.D. et al. Self-supervised deep learning encodes high-resolution features of protein subcellular localization. Nat Methods (2022).