Nat Methods | 28000種遺傳和化學(xué)擾動(dòng)下細(xì)胞的高維基因表達(dá)和形態(tài)特征
原創(chuàng)?huacishu?圖靈基因?2022-11-17 10:11?發(fā)表于江蘇
收錄于合集#前沿生物大數(shù)據(jù)分析
撰文:huacishu
IF=47.99
推薦度:?????
亮點(diǎn):
1、作者創(chuàng)建了一組基因表達(dá)(GE)和形態(tài)學(xué)數(shù)據(jù)集,這些數(shù)據(jù)集具有多模態(tài)數(shù)據(jù)分析和集成中機(jī)器學(xué)習(xí)研究所需的尺度和注釋?zhuān)?/p>
2、作者提出了一個(gè)框架,通過(guò)定義跨數(shù)據(jù)類(lèi)型的共享信息和補(bǔ)充信息可能有用的應(yīng)用程序,并使用生物學(xué)領(lǐng)域新手可以理解的術(shù)語(yǔ),來(lái)思考多模態(tài)數(shù)據(jù)的效用;
3、作者在每個(gè)小組中演示示例應(yīng)用程序,揭示有趣的生物學(xué)關(guān)系,并為每個(gè)小組提供基線(xiàn)方法、代碼、評(píng)估指標(biāo)和基準(zhǔn)結(jié)果,作為未來(lái)面向生物學(xué)的機(jī)器學(xué)習(xí)研究的基礎(chǔ)。

美國(guó)麻省理工學(xué)院-哈佛大學(xué)的博德研究所Shantanu Singh教授課題組在國(guó)際知名期刊Nat Methods在線(xiàn)發(fā)表題為“High-dimensional gene expression and morphology profiles of cells across 28,000 genetic and chemical perturbations”的論文。細(xì)胞可以受到各種化學(xué)和遺傳處理的干擾,對(duì)基因表達(dá)和形態(tài)的影響可以分別通過(guò)轉(zhuǎn)錄組分析和基于圖像的分析來(lái)測(cè)量。在這些高維數(shù)據(jù)中觀察到的模式可以為藥物發(fā)現(xiàn)和基礎(chǔ)生物學(xué)研究提供參考,但這兩種方法很少用于大規(guī)模實(shí)驗(yàn)。
本文作者提供了四個(gè)數(shù)據(jù)集的集合,這些數(shù)據(jù)集包括基因表達(dá)和形態(tài)數(shù)據(jù),可用于開(kāi)發(fā)和測(cè)試多模態(tài)方法。在28000多個(gè)化學(xué)和遺傳擾動(dòng)中,兩種數(shù)據(jù)類(lèi)型中的每一種都測(cè)量了大約1000個(gè)特征。作者定義了在這兩種數(shù)據(jù)模式中使用共享和互補(bǔ)信息的生物問(wèn)題,為多組學(xué)應(yīng)用提供分析和評(píng)估指標(biāo),并公開(kāi)了數(shù)據(jù)資源(https://broad.io/rosetta/)。
生物系統(tǒng)可以用許多不同的方式進(jìn)行量化。例如,研究人員可以使用顯微鏡和圖像分析或分子細(xì)節(jié)(如細(xì)胞中mRNA或蛋白質(zhì)的水平)來(lái)測(cè)量細(xì)胞的形態(tài)?,F(xiàn)在,“剖析”實(shí)驗(yàn)捕捉到每個(gè)樣本的高維特征,數(shù)百到數(shù)千個(gè)樣本可以被量化。
作者觀察到,沒(méi)有公共數(shù)據(jù)集提供兩種不同類(lèi)型的分析讀數(shù)的細(xì)胞遺傳和化學(xué)擾動(dòng)。這樣的數(shù)據(jù)集將支持多模態(tài)(也稱(chēng)為多組學(xué))分析和應(yīng)用。實(shí)例包括整合兩個(gè)數(shù)據(jù)源以更好地預(yù)測(cè)測(cè)定中化合物的活性,基于藥物與藥物的相似性預(yù)測(cè)藥物的作用機(jī)制(MoA),或基于其與基因的相似性來(lái)預(yù)測(cè)基因的功能。
從多個(gè)角度觀察一個(gè)系統(tǒng)可以揭示數(shù)據(jù)中的模式,而這些模式在單個(gè)角度中可能是不可見(jiàn)的。機(jī)器學(xué)習(xí)方法已經(jīng)在各個(gè)領(lǐng)域進(jìn)行了探索,以從多個(gè)來(lái)源進(jìn)行學(xué)習(xí),繼而從數(shù)據(jù)中做出更好的推斷。在生物學(xué)中,測(cè)量多組分?jǐn)?shù)據(jù)的技術(shù)的進(jìn)步引發(fā)了對(duì)不同高維讀數(shù)的關(guān)系和整合的研究。例如,轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、表觀基因組學(xué)和代謝組學(xué)數(shù)據(jù)可以結(jié)合起來(lái)預(yù)測(cè)化合物的MoAs。
本文作者創(chuàng)建了一組基因表達(dá)(GE)和形態(tài)學(xué)數(shù)據(jù)集,這些數(shù)據(jù)集具有多模態(tài)數(shù)據(jù)分析和集成中機(jī)器學(xué)習(xí)研究所需的尺度和注釋。GE數(shù)據(jù)使用L1000測(cè)定法獲得,形態(tài)學(xué)數(shù)據(jù)使用細(xì)胞繪畫(huà)(CP)測(cè)定法獲得。當(dāng)細(xì)胞樣本受到數(shù)百到數(shù)千種不同條件(包括化學(xué)和遺傳條件)的干擾時(shí),該資源提供了大約1000個(gè)mRNA水平和1000個(gè)形態(tài)學(xué)特征,從而提供了兩種不同的、豐富的細(xì)胞視圖。
此外,作者提出了一個(gè)框架,通過(guò)定義跨數(shù)據(jù)類(lèi)型的共享信息和補(bǔ)充信息可能有用的應(yīng)用程序,并使用生物學(xué)領(lǐng)域新手可以理解的術(shù)語(yǔ),來(lái)思考多模態(tài)數(shù)據(jù)的效用。在每個(gè)小組中演示示例應(yīng)用程序,揭示有趣的生物學(xué)關(guān)系,并為每個(gè)小組提供基線(xiàn)方法、代碼、評(píng)估指標(biāo)和基準(zhǔn)結(jié)果,作為未來(lái)面向生物學(xué)的機(jī)器學(xué)習(xí)研究的基礎(chǔ)。
基因表達(dá)和形態(tài)特征
所有數(shù)據(jù)集都是在作者的機(jī)構(gòu)創(chuàng)建的,涉及兩種類(lèi)型的“輸入”之一:化學(xué)擾動(dòng)和遺傳擾動(dòng)(圖1)。還有兩種類(lèi)型的高維輸出被測(cè)量:GE輪廓和形態(tài)輪廓,每一種都有大約1000個(gè)特征被測(cè)量。對(duì)于每個(gè)數(shù)據(jù)集,在一個(gè)實(shí)驗(yàn)室中,細(xì)胞被放置在兩組相同的板中,每個(gè)板用相同的化學(xué)(或遺傳)擾動(dòng)處理,然后一組用于測(cè)量GE,另一組用于測(cè)定形態(tài)學(xué)。
使用L1000分析捕獲GE(mRNA)譜。L1000分析報(bào)告了用給定擾動(dòng)處理的大量細(xì)胞群體中大約978個(gè)基因的樣品mRNA水平。使用CP分析捕獲了形態(tài)特征。使用CellProfiler軟件對(duì)圖像進(jìn)行處理,以提取每個(gè)細(xì)胞形態(tài)的數(shù)千個(gè)特征,如形狀、強(qiáng)度和紋理統(tǒng)計(jì),從而形成每個(gè)細(xì)胞的高維輪廓。然后為每個(gè)樣品孔中的所有成像單細(xì)胞創(chuàng)建聚集(群體平均)分布圖。
共享與補(bǔ)充信息內(nèi)容
細(xì)胞形態(tài)和GE是兩種非常不同的細(xì)胞狀態(tài)測(cè)量方法,它們之間的關(guān)系非常復(fù)雜。例如,形態(tài)的改變可以誘導(dǎo)GE改變,而GE改變可以誘導(dǎo)細(xì)胞形態(tài)的改變。然而,嚴(yán)格的關(guān)系并不總是如此;許多藥物影響細(xì)胞的mRNA或形態(tài)特征,但并非兩者都有。
蛋白質(zhì)穩(wěn)定性或翻譯后修飾的改變可以誘導(dǎo)形態(tài)學(xué)改變而不改變GE;例如,在Rho家族中,形態(tài)變化的時(shí)間尺度很短,無(wú)法用mRNA的變化來(lái)解釋。這兩種數(shù)據(jù)類(lèi)型是在不同的時(shí)間點(diǎn)收集的,每個(gè)時(shí)間點(diǎn)都是最佳的。因此,作者假設(shè)每個(gè)數(shù)據(jù)類(lèi)型中的信息由共享子空間、模態(tài)特定互補(bǔ)子空間和噪聲組成(圖1)。這兩個(gè)子空間都可以用于生物應(yīng)用。
跨兩種模態(tài)的共享子空間
GE和細(xì)胞形態(tài)學(xué)之間的共享子空間正在開(kāi)始探索。例如,跨模態(tài)自編碼學(xué)習(xí)了單細(xì)胞RNA測(cè)序(RNA-seq)和染色質(zhì)圖像的共享潛在空間,以整合和跨模態(tài)翻譯。在另一項(xiàng)研究中,在組織學(xué)圖像和大量GE RNA序列數(shù)據(jù)的配對(duì)樣本中發(fā)現(xiàn)了一個(gè)共享的結(jié)構(gòu),這表明共享的潛在變量在形態(tài)學(xué)和GE之間形成了一個(gè)復(fù)合表型,這可能是有用的。
共享子空間的存在支持多個(gè)應(yīng)用。最重要的是,如果存在足夠的共享信息,可以使用另一種模態(tài)進(jìn)行計(jì)算預(yù)測(cè),從而節(jié)省大量實(shí)驗(yàn)資源。共享子空間的另一個(gè)用途是識(shí)別兩種類(lèi)型的特定特征之間的關(guān)系。
模態(tài)特定的互補(bǔ)子空間
每個(gè)模態(tài)都可能有一個(gè)模態(tài)特定子空間,其中包含該模態(tài)特有的信息,而另一個(gè)模態(tài)則無(wú)法預(yù)測(cè)。數(shù)據(jù)模態(tài)融合和集成技術(shù)是機(jī)器學(xué)習(xí)中的一個(gè)活躍研究領(lǐng)域,在有多種模態(tài)可用的數(shù)據(jù)集上,可能為許多不同的生物特征分析任務(wù)產(chǎn)生優(yōu)異的樣本表示。同樣,使用這兩種數(shù)據(jù)類(lèi)型,基于與其他基因的相似性來(lái)預(yù)測(cè)基因的功能可能會(huì)更成功。
應(yīng)用1:跨模態(tài)預(yù)測(cè)
使用Lasso作為基線(xiàn)線(xiàn)性模型,使用多層感知器(MLP)作為回歸問(wèn)題的基線(xiàn)非線(xiàn)性模型。一些數(shù)據(jù)集在從形態(tài)學(xué)數(shù)據(jù)預(yù)測(cè)某些mRNA水平方面表現(xiàn)出優(yōu)異的準(zhǔn)確性,MLP產(chǎn)生的結(jié)果優(yōu)于Lasso(圖2a,b)。能夠改進(jìn)這些基準(zhǔn)的機(jī)器學(xué)習(xí)方法將對(duì)生物醫(yī)學(xué)界非常有用。其中兩個(gè)數(shù)據(jù)集(LUAD和LINCS)的性能明顯高于其他兩個(gè)(TAORF和CDRP bio),這表明后兩個(gè)數(shù)據(jù)集中的數(shù)據(jù)質(zhì)量可能較差,或者模態(tài)排列較差。
鑒于LUAD和LINCS都使用A549細(xì)胞,也可能轉(zhuǎn)錄-形態(tài)學(xué)聯(lián)系是細(xì)胞系依賴(lài)性的,并且由于某種原因,它在A549中更強(qiáng);然而,表現(xiàn)上的差異似乎更可能與數(shù)據(jù)技術(shù)質(zhì)量的差異有關(guān)。同樣,進(jìn)一步的預(yù)處理和去噪技術(shù),也是未來(lái)機(jī)器學(xué)習(xí)研究的另一個(gè)目標(biāo)。
除了跨模態(tài)的對(duì)齊,跨不同數(shù)據(jù)集的對(duì)齊對(duì)于跨不同數(shù)據(jù)集中轉(zhuǎn)換預(yù)測(cè)模型也是必要的。在每個(gè)性能最高的數(shù)據(jù)集上訓(xùn)練并在另一個(gè)數(shù)據(jù)集(LUAD和LINCS)上測(cè)試的模型的應(yīng)用表明模型在數(shù)據(jù)集之間的可翻譯性較差。提高跨數(shù)據(jù)集的模型通用性需要專(zhuān)門(mén)設(shè)計(jì)的方法,以糾正本文所述數(shù)據(jù)類(lèi)型的批量級(jí)信息中的技術(shù)變化和批量效應(yīng)。
兩種模式中的共享信息可以以其他方式使用??梢愿鶕?jù)一個(gè)或多個(gè)數(shù)據(jù)集確定高度可預(yù)測(cè)的標(biāo)志性基因中的重疊(圖2c);在四個(gè)數(shù)據(jù)集中,至少有三個(gè)數(shù)據(jù)集預(yù)測(cè)了59個(gè)標(biāo)志性基因。對(duì)于LUAD數(shù)據(jù)集,作者確定了高度可預(yù)測(cè)基因的基因家族。LUAD高度可預(yù)測(cè)基因集的過(guò)度表達(dá)分析表明,許多過(guò)度表達(dá)類(lèi)別與CP分析中染色的成分有關(guān),如DNA和肌動(dòng)蛋白。
最后,在實(shí)驗(yàn)中檢查了每一類(lèi)基于圖像的特征的預(yù)測(cè)得分,以幫助理解哪些特征是預(yù)測(cè)哪些基因mRNA水平的基礎(chǔ)。為此,首先將CP特征分為四類(lèi)(強(qiáng)度、紋理、徑向分布和形狀)和五個(gè)熒光通道(DNA、RNA、ER、AGP和Mito),然后計(jì)算并顯示特征組特定預(yù)測(cè)得分,作為中值預(yù)測(cè)得分的分層聚類(lèi)熱圖(圖2d)。
為了更全面地檢查觀察到的GE–CP關(guān)系(圖2d)是否與L1000標(biāo)志性基因的已知生物學(xué)功能一致,作者進(jìn)行了基因本體(GO)術(shù)語(yǔ)搜索分析(方法)。作者想知道,與其他CP通道相比,通過(guò)每個(gè)特定CP通道的形態(tài)特征高度可預(yù)測(cè)的標(biāo)志性基因是否更有可能具有與該通道相關(guān)的GO注釋?zhuān)煌ǔG闆r并非如此,這與大多數(shù)可預(yù)測(cè)的基因一致,這些基因在所有類(lèi)型的特征中顯示信號(hào),而不是強(qiáng)烈的通道特異性(圖2d)。
作者發(fā)現(xiàn)很大一部分形態(tài)學(xué)特征是高度可預(yù)測(cè)的,尤其是對(duì)于LUAD和LINCS數(shù)據(jù)集(圖3a)。根據(jù)所有數(shù)據(jù)集對(duì)高度可預(yù)測(cè)的形態(tài)特征進(jìn)行分組顯示,它們主要屬于所有通道的徑向分布和紋理特征類(lèi)別(圖3b)。同樣,人們可以查詢(xún)形態(tài)學(xué)特征以找到其mRNA水平具有預(yù)測(cè)性的標(biāo)志性基因。例如,形態(tài)學(xué)特征“Cells_Texture_InfoMeas1_RNA_3_0”依賴(lài)于其預(yù)測(cè)中許多基因的水平,包括已知參與mRNA加工的幾個(gè)基因(圖3c)。
應(yīng)用2:整合基因表達(dá)和形態(tài)學(xué)
辨別化合物如何工作是藥物發(fā)現(xiàn)的一個(gè)主要瓶頸。這項(xiàng)任務(wù)被稱(chēng)為MoA測(cè)定,其目的是確定藥物影響生物系統(tǒng)的機(jī)制?,F(xiàn)有的方法通常是資源和時(shí)間密集型的,成功率很低。因此,很少有策略在多種藥物中得到系統(tǒng)測(cè)試;大多數(shù)策略本質(zhì)上只對(duì)藥物或靶標(biāo)類(lèi)型的子集起作用,因此通常同時(shí)采用多種方法來(lái)生成用于進(jìn)一步測(cè)試的假設(shè)。
幾項(xiàng)研究報(bào)告成功地分別使用GE或細(xì)胞形態(tài)學(xué)數(shù)據(jù)預(yù)測(cè)了化合物的MoA,但沒(méi)有一項(xiàng)研究將這兩種數(shù)據(jù)類(lèi)型結(jié)合在一起,以測(cè)試在監(jiān)督或非監(jiān)督環(huán)境下的預(yù)測(cè)能力的提高。因此,作者使用集合中的兩個(gè)化學(xué)擾動(dòng)數(shù)據(jù)集(CDRP bio和LINCS)提供了這方面的基準(zhǔn)。在應(yīng)用程序1中,許多基因不能基于形態(tài)學(xué)進(jìn)行很好的預(yù)測(cè),這一發(fā)現(xiàn)為兩種模式可能攜帶互補(bǔ)信息的觀點(diǎn)提供了一些支持。
單獨(dú)使用每個(gè)CP和GE模態(tài)對(duì)擾動(dòng)進(jìn)行聚類(lèi)表明,CP在這兩個(gè)復(fù)合數(shù)據(jù)集中的MoA檢索任務(wù)中優(yōu)于GE。盡管與GE空間相比,大多數(shù)集成方法提高了集成空間中的聚類(lèi)檢索性能,但只有正則化廣義正則相關(guān)分析(RGCCA)單獨(dú)提高了CP空間中的性能(圖4a)。
在有監(jiān)督的環(huán)境中,使用邏輯回歸和MLP分類(lèi)器作為基線(xiàn)模型,作者獨(dú)立地使用每種數(shù)據(jù)模式預(yù)測(cè)MoA標(biāo)簽,對(duì)篩選的化合物子集進(jìn)行交叉驗(yàn)證。CP剖面圖與GE剖面圖相比,每個(gè)數(shù)據(jù)集的MoA預(yù)測(cè)性能更高(圖4b)。
所有三種集成策略在預(yù)測(cè)兩個(gè)數(shù)據(jù)集和兩種模型類(lèi)型的MoA方面表現(xiàn)出相對(duì)可比的性能,表現(xiàn)較好的模態(tài)的性能平均改善較?。▓D4b),突出了開(kāi)發(fā)更好地利用模態(tài)互補(bǔ)性的數(shù)據(jù)融合方法的必要性。探索綜合模態(tài)的MoA類(lèi)特定F1分?jǐn)?shù)揭示了類(lèi)特定預(yù)測(cè)結(jié)果的高度差異(圖4c)。對(duì)于單個(gè)MoA類(lèi)別,模態(tài)的集成并不總是比單獨(dú)的更高性能模態(tài)提高M(jìn)oA預(yù)測(cè)任務(wù)的性能。
討論
作者為研究團(tuán)體提供了一組多模態(tài)數(shù)據(jù)集,包括GE和形態(tài)學(xué)讀數(shù),代表兩種細(xì)胞類(lèi)型和兩種擾動(dòng)類(lèi)型(遺傳和化學(xué))。將這些數(shù)據(jù)的有用生物學(xué)應(yīng)用分為兩類(lèi):使用共享信息的應(yīng)用和使用模態(tài)特定的補(bǔ)充信息的應(yīng)用。作者為每個(gè)類(lèi)別中的一個(gè)應(yīng)用程序提供數(shù)據(jù)、代碼、指標(biāo)和基準(zhǔn)測(cè)試結(jié)果。
結(jié)果表明,GE和形態(tài)學(xué)圖譜包含關(guān)于細(xì)胞狀態(tài)的有用重疊和不同信息。在這些高通量測(cè)定的條件下,許多mRNA可以通過(guò)細(xì)胞形態(tài)預(yù)測(cè),反之亦然。形態(tài)學(xué)捕獲的信息超出了mRNA圖譜中的信息;也就是說(shuō),這兩種模式包含獨(dú)特的信息,作者確定了哪種化合物的機(jī)制更好地被每種模式捕獲。
結(jié)果還表明,這些應(yīng)用具有足夠的挑戰(zhàn)性,可以提供改進(jìn)的空間。這樣的技術(shù)還可以充分地將四個(gè)數(shù)據(jù)集相互對(duì)齊,以探索通用的、獨(dú)立于數(shù)據(jù)集的模型。此外,該預(yù)測(cè)任務(wù)中的真實(shí)性?xún)H由可用的實(shí)驗(yàn)GE和細(xì)胞形態(tài)學(xué)數(shù)據(jù)定義,該數(shù)據(jù)受技術(shù)變化和誤差的影響,因此不是絕對(duì)真實(shí)的。對(duì)于MoA預(yù)測(cè),任何單一分析的成功率都很低;最常見(jiàn)的是使用幾種策略來(lái)確定MoA。
除了已經(jīng)指出的數(shù)據(jù)質(zhì)量之外,所呈現(xiàn)的數(shù)據(jù)集還有多個(gè)額外的限制。這些數(shù)據(jù)集中捕捉到的基因干擾數(shù)量為幾百個(gè),而基因組中大約有21000個(gè)基因,每個(gè)基因中都有許多變異,這些變異可能會(huì)被過(guò)度表達(dá)或敲除。同樣,這里測(cè)試了數(shù)千種化合物,但制藥公司通常有數(shù)百萬(wàn)種化合物。擴(kuò)展這些數(shù)據(jù)集的唯一限制是進(jìn)行實(shí)驗(yàn)的財(cái)政資源。
最后,細(xì)胞類(lèi)型是來(lái)自?xún)擅兹嘶颊?,一名男性(A549)和一名女性(U2OS)。因此,這些數(shù)據(jù)得出的結(jié)論可能只適用于這些人的人口學(xué)或基因組學(xué),而不是更廣泛的群體。之所以選擇這些細(xì)胞系,是因?yàn)樗鼈兌挤浅_m合于顯微鏡檢查,并且它們提供了使用它們連接廣泛的先前研究和數(shù)據(jù)集的優(yōu)勢(shì)。盡管仍然非常罕見(jiàn)、規(guī)模小且勞動(dòng)密集,但具有單細(xì)胞分辨率的GE和形態(tài)學(xué)數(shù)據(jù)集已開(kāi)始通過(guò)原位RNA-seq方法獲得,并可能加速多模式生物數(shù)據(jù)分析領(lǐng)域的發(fā)展。
教授介紹
Shantanu Singh是Broad Institute成像平臺(tái)的高級(jí)組長(zhǎng)。他領(lǐng)導(dǎo)了一個(gè)數(shù)據(jù)科學(xué)小組,該小組開(kāi)發(fā)了計(jì)算和統(tǒng)計(jì)方法,從細(xì)胞的顯微鏡圖像中創(chuàng)建基因、化學(xué)物質(zhì)和疾病的指紋。使用細(xì)胞繪制等檢測(cè)方法,捕捉細(xì)胞的廣泛形態(tài)特性,以單細(xì)胞分辨率對(duì)細(xì)胞群進(jìn)行表征,以發(fā)現(xiàn)處理之間的相似性和差異性。這項(xiàng)工作有可能改變?nèi)绾未_定疾病的靶點(diǎn)和治療方法。在俄亥俄州完成計(jì)算機(jī)科學(xué)博士學(xué)位后,Shantanu加入了Imaging Platform,受到該團(tuán)隊(duì)將細(xì)胞形態(tài)與基因組一樣可計(jì)算的愿景的啟發(fā)。他曾在梅賽德斯-奔馳研發(fā)部、通用電氣全球研究部和勞倫斯·利弗莫爾國(guó)家實(shí)驗(yàn)室的研究小組工作,在那里他將計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于道路安全、細(xì)胞生物學(xué)和地理空間成像等一系列問(wèn)題。
參考文獻(xiàn)
Haghighi M, Caicedo JC, Cimini BA, Carpenter AE, Singh S. High-dimensional gene expression and morphology profiles of cells across 28,000 genetic and chemical perturbations. Nat Methods. 2022;10.1038/s41592-022-01667-0. doi:10.1038/s41592-022-01667-0