作者,Evil Genius
破譯細(xì)胞類型異質(zhì)性對于系統(tǒng)地理解組織穩(wěn)態(tài)及其在疾病中的失調(diào)至關(guān)重要。計(jì)算反卷積是從各種組學(xué)數(shù)據(jù)中估計(jì)細(xì)胞型豐度的有效方法。
參考文獻(xiàn)


任何復(fù)雜組織的生物學(xué)都直接依賴于細(xì)胞,細(xì)胞是生物功能的基本單位。據(jù)估計(jì),人體內(nèi)有200多種不同類型的細(xì)胞。實(shí)際上,多細(xì)胞生物中的所有組織都是異質(zhì)的,由多種細(xì)胞類型組成。因此,細(xì)胞類型異質(zhì)性在許多生物醫(yī)學(xué)領(lǐng)域都是至關(guān)重要的。例如,細(xì)胞類型異質(zhì)性在癌癥治療中受到越來越多的關(guān)注。腫瘤微環(huán)境的狀態(tài),包括細(xì)胞類型、比例及其與腫瘤細(xì)胞的相互作用,對治療效果、轉(zhuǎn)移和生存均有顯著影響。因此,破譯細(xì)胞類型異質(zhì)性對于系統(tǒng)地理解健康狀態(tài)下的體內(nèi)平衡和疾病狀態(tài)下的失調(diào)至關(guān)重要。
破譯每種組織的實(shí)驗(yàn)方法既昂貴又耗時(shí),而且僅限于某些類型的細(xì)胞,而且即使在檢測到的細(xì)胞類型中也會(huì)受到雜質(zhì)的影響。為了克服這些問題,被稱為“細(xì)胞型去卷積”的替代計(jì)算過程已經(jīng)成為基因組學(xué)領(lǐng)域的一個(gè)重要研究方向。去卷積旨在估計(jì)異質(zhì)混合樣本中不同細(xì)胞類型比例的計(jì)算技術(shù)。在數(shù)學(xué)上,計(jì)算去卷積的問題可以表述為E = S × C。E 是大量組織級(jí)特征表示矩陣,可通過將表示細(xì)胞類型特異性特征的參考矩陣 S 乘以細(xì)胞類型比例矩陣 C 來建模。這種廣義矩陣分解過程可以通過確定性線性模型、概率模型或深度學(xué)習(xí)方法來求解。許多基因組學(xué)數(shù)據(jù)類型受益于這樣的計(jì)算進(jìn)步,如基因表達(dá)、表觀遺傳學(xué)和空間組學(xué)。

盡管不同組學(xué)的基本計(jì)算原理相似,但數(shù)據(jù)類型重點(diǎn)關(guān)注計(jì)算去卷積方法的三個(gè)主要組學(xué)應(yīng)用:bulk組織基因表達(dá)、DNA 甲基化、空間轉(zhuǎn)錄組學(xué)(ST)數(shù)據(jù)。
Challenge 1: reference data quality
反褶積嚴(yán)重依賴于參考矩陣S形式的單個(gè)細(xì)胞類型特征信息的可用性和準(zhǔn)確性,其中行表示特征id(基因或DNA甲基化位點(diǎn)),列表示細(xì)胞類型。這個(gè)參考矩陣通常作為反卷積方法的輸入,以及需要從中推斷細(xì)胞類型組成的數(shù)據(jù)集一起提供。理想的參考應(yīng)包含感興趣的樣本中存在的所有細(xì)胞類型,包括在細(xì)胞類型之間具有較大變化的標(biāo)記特征,數(shù)量相對較高且平衡。
由于細(xì)胞類型固有的復(fù)雜性、標(biāo)記的非特異性以及分離它們的技術(shù)難度,通過實(shí)驗(yàn)或計(jì)算生成此類參考矩陣具有挑戰(zhàn)性。同一組織的reference之間的不一致是另一個(gè)常見問題,尤其是基因表達(dá)數(shù)據(jù)。
Challenge 2: ground truth data generation
細(xì)胞類型比例的bulk轉(zhuǎn)錄組學(xué)和DNA甲基化數(shù)據(jù)可以通過實(shí)驗(yàn)或計(jì)算生成。在它們之間,實(shí)驗(yàn)方法無疑更接近于實(shí)際的真相;然而,從實(shí)體組織標(biāo)本中生成此類數(shù)據(jù)的程序具有挑戰(zhàn)性。例如評(píng)估bulk轉(zhuǎn)錄組,需要同時(shí)測bulk 和scRNA,然后推斷方法的準(zhǔn)確性。
3、Challenge 3: limitations of computational methodologies
一、Transcriptomics-based deconvolution methods(bulkRNA)
CIBERSORT 和 CIBERSORTx 通常得到推薦,其次是 MuSiC 和 EPIC。

二、DNA methylation-based deconvolution methods
早期的計(jì)算去卷積方法通常是針對芯片平臺(tái)生成的數(shù)據(jù)而設(shè)計(jì)的,基于參考的方法MethylResolver、CIBERSORT等,還有refreeewas、BayesCCE和TOAST等無參考的方法,以及refreecellmix等半無參考的方法。針對基于測序的DNA甲基化數(shù)據(jù),已經(jīng)發(fā)表了多種去卷積方法,包括MethylPurify、Bayesian epiallele detection、PRISM、csmFinder + coMethy、ClubCpG和DXM。
三、Spatial transcriptomics-based deconvolution methods
空間轉(zhuǎn)錄組學(xué)技術(shù)能夠在組織結(jié)構(gòu)和空間組織的背景下分析轉(zhuǎn)錄組信息。在各種空間轉(zhuǎn)錄組學(xué)平臺(tái)中,基于下一代的方法通常不具備每個(gè)spot的單細(xì)胞分辨率。因此,反卷積對于這些技術(shù)的下游細(xì)胞類型比例依賴分析是必要的。與非空間轉(zhuǎn)錄組反卷積方法類似,許多空間轉(zhuǎn)錄組反卷積方法依賴于來自相同或不同組織的scRNA-seq參考。空間轉(zhuǎn)錄組反卷積的基本方法各不相同。CARD、C-SIDE、RCTD、SpatialDecon、stereoscope等方法均基于回歸建模。DestVI、CellDART、DSTG、Tangram、SD2、spSeudoMap和AntiSplodge等方法使用深度學(xué)習(xí)模型進(jìn)行反卷積。基于最優(yōu)傳輸?shù)姆椒?,如SpaOTsc和NovoSpaRc,也可以用于反卷積目的,盡管這些方法不是專門為解決這一任務(wù)而設(shè)計(jì)的。非負(fù)矩陣分解(NMF)方法,如SPOTlight和NMFreg,以及基于凸優(yōu)化的方法,如CytoSPACE,也被用于反卷積空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)。其他方法包括EnDecon(集成學(xué)習(xí))、CellTrek(隨機(jī)森林)、STRIDE(主題建模)和最初為單細(xì)胞注釋分析開發(fā)的方法,如Seurat。
隨著額外的數(shù)據(jù)維度,如成像和空間距離,新的空間數(shù)據(jù)反卷積方法正在出現(xiàn)。例如,Tangram可以利用組織學(xué)成像數(shù)據(jù)(如果有的話)進(jìn)行空間轉(zhuǎn)錄組反卷積。此外,還有使用潛在Dirichlet分配模型的STdeconvolve和基于NMF的SPICEMIX等無參考方法。與最近甲基化數(shù)據(jù)反卷積的趨勢類似,新的半無參考的空間轉(zhuǎn)錄組學(xué)方法,如Celloscope,允許合并每種細(xì)胞類型的基因標(biāo)記的先驗(yàn)知識(shí),而不需要外部單細(xì)胞數(shù)據(jù)集。
最近有一些關(guān)于空間轉(zhuǎn)錄組反卷積的基準(zhǔn)研究。在常用的調(diào)查方法中,基于參考單細(xì)胞數(shù)據(jù)的方法往往比無參考單細(xì)胞數(shù)據(jù)的方法做得更好。相關(guān)文獻(xiàn)越多,反卷積越準(zhǔn)確。目前的共識(shí)是cell2location、RCTD和stereoscope是普遍較好的方法,其次是spatialDWLS。然而,其他推薦的方法各不相同,許多現(xiàn)有的反卷積方法在基準(zhǔn)研究中仍未經(jīng)過測試。基準(zhǔn)測試結(jié)果的不一致是由多種原因造成的,包括不同的參考數(shù)據(jù)集、測試數(shù)據(jù)集、金標(biāo)準(zhǔn)和評(píng)估指標(biāo)。

Challenge 4: benchmarking design and implementation
即評(píng)估分析方法的參考指標(biāo)。
關(guān)于高質(zhì)量參考數(shù)據(jù)生成的建議
- 高質(zhì)量的單細(xì)胞數(shù)據(jù):在最近發(fā)表的《人類肺細(xì)胞圖譜》 中,作者整合了來自 49 個(gè)數(shù)據(jù)集的 486 個(gè)捐贈(zèng)者的 240 萬個(gè)細(xì)胞數(shù)據(jù),這需要廣泛收集數(shù)據(jù)、開發(fā)數(shù)據(jù)整合基準(zhǔn)方法,以及結(jié)合計(jì)算和人工方法來優(yōu)化細(xì)胞注釋。未來的研究也需要類似的大量工作,以確保參考數(shù)據(jù)的質(zhì)量和真實(shí)性。
關(guān)于計(jì)算方法新方向的建議
隨著單細(xì)胞基因組學(xué)的不斷進(jìn)步,使用單細(xì)胞參考的計(jì)算方法可能會(huì)在提高去卷積的準(zhǔn)確性和穩(wěn)健性方面顯示出優(yōu)勢。大多數(shù)基于轉(zhuǎn)錄組學(xué)和DNA甲基化的去卷積方法使用傳統(tǒng)的統(tǒng)計(jì)方法來解決去卷積的線性混合模型。鑒于有大量可用的大規(guī)模 omics 數(shù)據(jù)(如 scRNA-seq 生成的數(shù)據(jù)),可以考慮采用更穩(wěn)健的方法,如基于神經(jīng)網(wǎng)絡(luò)的模型。
- 空間轉(zhuǎn)錄組組學(xué)的特點(diǎn):在去卷積spot時(shí)需要考慮空間鄰域效應(yīng);空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)中會(huì)有更多噪聲。