生物醫(yī)學(xué)研究和臨床應(yīng)用中單細(xì)胞RNA-seq數(shù)據(jù)分析指南

作者,Evil Genius

時(shí)光飛逝,且行且珍惜。

單細(xì)胞RNA測(cè)序(scRNA-seq)在生物醫(yī)學(xué)研究中的應(yīng)用,提高了對(duì)疾病發(fā)病機(jī)制的認(rèn)識(shí),并為新的診斷和治療策略提供了有價(jià)值的見(jiàn)解。隨著包括臨床樣本在內(nèi)的高通量scRNA-seq數(shù)據(jù)的擴(kuò)大,對(duì)這些大量數(shù)據(jù)的分析已經(jīng)成為進(jìn)入這一領(lǐng)域的研究人員的一個(gè)必須面對(duì)的前景。在這里,回顧了典型scRNA-seq數(shù)據(jù)分析的工作流程,包括原始數(shù)據(jù)處理和質(zhì)量控制,適用于幾乎所有scRNA-seq數(shù)據(jù)集的基本數(shù)據(jù)分析,以及應(yīng)針對(duì)特定科學(xué)問(wèn)題量身定制的高級(jí)數(shù)據(jù)分析。在總結(jié)每個(gè)分析步驟的當(dāng)前方法的同時(shí),還提供了軟件和腳本的在線數(shù)據(jù)。對(duì)一些具體的分析任務(wù)和方法提出了建議和注意事項(xiàng)。

Background

復(fù)雜組織由各種各樣的細(xì)胞類型組成,這些細(xì)胞類型以各種各樣的混合狀態(tài)出現(xiàn)。每個(gè)細(xì)胞所包含的功能基因組信息往往與鄰近的細(xì)胞群甚至同一類型的細(xì)胞有很大的不同。這意味著對(duì)塊狀組織中細(xì)胞群的分子分析本質(zhì)上是不可靠和不敏感的。在單細(xì)胞分辨率下量化分子變化所能達(dá)到的敏感性和特異性,為揭示疾病發(fā)病機(jī)制和進(jìn)展背后的分子機(jī)制帶來(lái)了前所未有的機(jī)遇。自成立以來(lái),單細(xì)胞rna測(cè)序(scRNA-seq)已被證明是一個(gè)強(qiáng)大的工具,用于分析單個(gè)細(xì)胞的基因表達(dá),在生理和發(fā)病機(jī)制。例如,通過(guò)在癌癥生物學(xué)中使用scRNA-seq,研究人員已經(jīng)能夠確定各種腫瘤類型中癌細(xì)胞的起源。此外,從治療和預(yù)后方面,發(fā)現(xiàn)了具有臨床顯著特征的惡性細(xì)胞亞群,如具有上皮-免疫雙重特征的鼻咽癌預(yù)后較差。同樣,在轉(zhuǎn)移性乳腺癌細(xì)胞中觀察到強(qiáng)烈的上皮-間充質(zhì)轉(zhuǎn)化(EMT)和干性特征。在scRNA-seq的輔助下,還可以對(duì)類器官系統(tǒng)的質(zhì)量和有效性進(jìn)行準(zhǔn)確評(píng)估和系統(tǒng)評(píng)估。患者來(lái)源的類器官模型目前正被應(yīng)用于疾病病理解剖和促進(jìn)個(gè)性化治療的藥物篩選。此外,通過(guò)聯(lián)合應(yīng)用患者來(lái)源的類器官和scRNA-seq,發(fā)現(xiàn)了腫瘤進(jìn)展過(guò)程中不同的細(xì)胞狀態(tài),并鑒定了耐藥細(xì)胞亞群。在當(dāng)前的2019冠狀病毒病(COVID-19)大流行中,scRNA-seq加速了表征分子基礎(chǔ)的研究,從而理解了嚴(yán)重急性呼吸綜合征冠狀病毒 (SARS-CoV-2)的病理。多種基于scrna -seq的研究揭示了新型冠狀病毒的靶向細(xì)胞亞型,分析了感染后免疫細(xì)胞的基因表達(dá)變化,量化了不同類型細(xì)胞間相互作用的改變,為開發(fā)新型冠狀病毒的潛在治療方法提供了重要資源。

自從商業(yè)單細(xì)胞平臺(tái)(包括10 × genomics和Singleron提供的平臺(tái))出現(xiàn)以來(lái),由研究機(jī)構(gòu)或第三方公司的核心設(shè)施提供的scRNA-seq服務(wù)正在使該技術(shù)更容易獲得,價(jià)格也更易接受,并在某些情況下成為生物醫(yī)學(xué)研究人員和臨床醫(yī)生的常規(guī)技術(shù)。雖然這些服務(wù)提供商通常執(zhí)行數(shù)據(jù)質(zhì)量控制并執(zhí)行數(shù)據(jù)處理的基本pipeline,但通常無(wú)法提供特定研究目標(biāo)和科學(xué)問(wèn)題所需的高級(jí)數(shù)據(jù)分析。因此,大多數(shù)生物醫(yī)學(xué)研究人員需要通過(guò)確定最合適的計(jì)算工具來(lái)解剖他們的數(shù)據(jù),來(lái)掌握scRNA-seq數(shù)據(jù)分析的全部范圍。

為了克服scRNA-seq數(shù)據(jù)分析的障礙,特別是在生物醫(yī)學(xué)研究中,本文旨在:1)總結(jié)生物醫(yī)學(xué)scRNA-seq數(shù)據(jù)分析中每個(gè)分析任務(wù)的算法開發(fā)和基準(zhǔn)測(cè)試結(jié)果的最新進(jìn)展;2)介紹由更適合生物醫(yī)學(xué)應(yīng)用的推薦軟件工具組成的工作流程。工作流程包括基本的scRNA-seq數(shù)據(jù)處理、質(zhì)量控制(QC)、特征選擇、降維、細(xì)胞聚類和注釋、軌跡推斷、細(xì)胞-細(xì)胞通訊(CCC)、轉(zhuǎn)錄因子(TF)活性預(yù)測(cè)和代謝分析。

R版本
quality control: DoubletFinder, Seurat
integration: Seurat CCA, Seurat RPCA, Liger and Harmony
reduction and clustering: Seurat
cell annotation: singleR,scCATCH, CellMarker
trajectory prediction: Monocle3
cell communication: CellChat
metabolic flux: scMetabolism

python版本
rawdata analysis: cellranger
quality control, reduction and cluster: scanpy
regulon analysis: pySCENIC
trajectory prediction: scVelo
metabolic analysis: scFEA

General tasks of single?cell RNA?seq data analysis

scRNA-seq的典型數(shù)據(jù)分析步驟一般可以分為三個(gè)階段:原始數(shù)據(jù)處理和QC,適用于幾乎所有scRNAseq數(shù)據(jù)集的基礎(chǔ)數(shù)據(jù)分析,以及針對(duì)特定研究場(chǎng)景量身定制的高級(jí)數(shù)據(jù)分析。而基本的數(shù)據(jù)分析步驟包括數(shù)據(jù)歸一化與整合、特征選擇、降維、細(xì)胞聚類、細(xì)胞類型標(biāo)注和標(biāo)記基因鑒定。高級(jí)數(shù)據(jù)分析任務(wù)包括軌跡推斷、CCC分析、軌跡推斷和TF活性預(yù)測(cè)、代謝通量估計(jì)。

Experimental design

ScRNA-seq實(shí)驗(yàn)需要精心設(shè)計(jì),以優(yōu)化解決科學(xué)問(wèn)題的能力。在開始數(shù)據(jù)分析之前,需要收集以下與實(shí)驗(yàn)設(shè)計(jì)相關(guān)的信息。(1)物種:對(duì)于生物醫(yī)學(xué)研究和臨床應(yīng)用,通常收集來(lái)自患者的人體樣本進(jìn)行測(cè)序。在某些情況下,為了研究潛在的分子機(jī)制,也使用了小鼠和其他模式生物。由于人類與其他物種的基因名稱和相關(guān)數(shù)據(jù)資源是不同的,因此在進(jìn)行數(shù)據(jù)分析時(shí),確定物種是很重要的。為簡(jiǎn)單起見(jiàn),將重點(diǎn)介紹來(lái)自人類樣本的數(shù)據(jù)。(2)樣品來(lái)源:根據(jù)科學(xué)問(wèn)題和樣本可及性的不同,不同的研究可以選擇不同的樣本類型。例如,為了研究肝細(xì)胞癌等實(shí)體腫瘤,從患者身上收集腫瘤活檢和腫瘤周圍樣本進(jìn)行病例對(duì)照設(shè)計(jì)。盡管上述設(shè)計(jì)在一定程度上是可行的,但外周血單個(gè)核細(xì)胞(pmcs)更容易獲得并廣泛用于scRNA-seq。此外,來(lái)自患者來(lái)源的類器官的細(xì)胞通常用于研究個(gè)人遺傳變異對(duì)特定器官發(fā)育的影響,這也可能是特定疾病的起源。了解樣本來(lái)源有助于特定的分析,例如細(xì)胞聚類和細(xì)胞類型注釋。(3)實(shí)驗(yàn)設(shè)計(jì):為了研究疾病的發(fā)病機(jī)制和特定治療的有效性,通常采用病例對(duì)照設(shè)計(jì),如腫瘤與腫瘤周圍設(shè)計(jì)。對(duì)于COVID-19等疾病,無(wú)法從同一患者身上獲得正常樣本,因此以年齡和性別匹配的健康人群作為對(duì)照組。為了控制患者和對(duì)照組之間可能的協(xié)變量,需要仔細(xì)考慮每組的個(gè)體數(shù)量。在(前瞻性)隊(duì)列研究中,樣本量通常相當(dāng)大,因此scRNA-seq不能應(yīng)用于來(lái)自個(gè)體捐贈(zèng)者的每個(gè)樣本;在這種情況下,通常采用嵌套病例-對(duì)照研究和樣本復(fù)用。一般情況下,數(shù)據(jù)分析策略需要根據(jù)實(shí)驗(yàn)設(shè)計(jì)的類型進(jìn)行調(diào)整

Raw data processing

原始數(shù)據(jù)處理步驟包括:sequencing read QC, read mapping, cell demultiplexing and cell-wise unique molecular identifier (UMI)-count table generation。而標(biāo)準(zhǔn)化的數(shù)據(jù)處理pipeline提供了scRNA-seq平臺(tái)的發(fā)布,如Cell Ranger for 10 × Genomics Chromium和CeleScope (https://github.com/singleron-RD/CeleScope)。對(duì)于Singleron的系統(tǒng),替代工具包括umi -tools, scPipe, zUMIs, celseq2, kallisto bustools和scruff也可以用于此過(guò)程。根據(jù)最近一項(xiàng)對(duì)scRNA-seq分析進(jìn)行基準(zhǔn)測(cè)試的研究,這些pipeline之間的選擇似乎沒(méi)有下游步驟重要在任何情況下,都不建議在個(gè)人電腦上處理原始數(shù)據(jù),因?yàn)檫@些pipeline需要大量的計(jì)算資源,并且針對(duì)高性能計(jì)算架構(gòu)進(jìn)行了優(yōu)化。第三方公司通常提供處理過(guò)的數(shù)據(jù),包括UMI計(jì)數(shù)矩陣和QC指標(biāo),使研究人員能夠?qū)W⒂诮鉀Q科學(xué)問(wèn)題的下游數(shù)據(jù)分析。

QC and doublet removal

細(xì)胞QC的目的是確保所有被分析的“細(xì)胞”都是單個(gè)且完整的細(xì)胞。損壞的細(xì)胞,死亡的細(xì)胞,受壓的細(xì)胞和雙細(xì)胞需要丟棄。細(xì)胞QC最常用的三個(gè)指標(biāo)是:UMI總計(jì)數(shù)(即計(jì)數(shù)深度),檢測(cè)到的基因數(shù)量,以及每個(gè)細(xì)胞條形碼中線粒體計(jì)數(shù)的比例。Cell Ranger和CeleScope通常執(zhí)行第一輪細(xì)胞QC,通過(guò)檢查scRNA-seq文庫(kù)中計(jì)數(shù)深度的分布,將潛在的真實(shí)細(xì)胞與背景細(xì)胞條形碼區(qū)分開來(lái)。需要注意的是,當(dāng)損壞的細(xì)胞或細(xì)胞碎片在文庫(kù)中占相當(dāng)大的比例時(shí),有效細(xì)胞的最小計(jì)數(shù)深度的閾值很難確定??赡艿慕鉀Q方案包括同時(shí)考慮多個(gè)QC指標(biāo),以及應(yīng)用更復(fù)雜的方法來(lái)排除背景和低質(zhì)量細(xì)胞。通常情況下,低數(shù)量的檢測(cè)基因和低計(jì)數(shù)深度表明細(xì)胞受損,而高比例的線粒體來(lái)源計(jì)數(shù)表明細(xì)胞死亡。相比之下,檢測(cè)到太多的基因和高計(jì)數(shù)深度可以表明雙基因。雖然像Seurat和Scater這樣的R包實(shí)現(xiàn)了促進(jìn)細(xì)胞QC的功能,但QC指標(biāo)的閾值在很大程度上取決于所研究的組織、細(xì)胞解離協(xié)議、庫(kù)制備方案等。參考具有相似實(shí)驗(yàn)設(shè)計(jì)的文獻(xiàn)將有助于確定閾值,高級(jí)研究人員也可以檢查QC指標(biāo)的聯(lián)合分布。值得注意的是,編碼核糖體蛋白的基因的累積表達(dá)并不是一個(gè)典型的QC指標(biāo),因?yàn)楹颂求w蛋白表達(dá)的變化在生物學(xué)上是有意義的。
此外,在QC步驟中需要考慮和控制各種污染源。例如,來(lái)自pbmc和固體組織的文庫(kù)可能被紅細(xì)胞污染,因此表達(dá)高水平血紅蛋白基因的細(xì)胞(如HBB)通常被丟棄。另一種污染來(lái)源是無(wú)細(xì)胞或環(huán)境RNA,這可以從高通量scRNA-seq中無(wú)細(xì)胞液滴或孔中的特定基因的讀取中得到證明。估計(jì)和清除這種污染的方法和工具最近已經(jīng)開發(fā)出來(lái),包括SoupX, DecontX,環(huán)境RNA的快速校正(FastCAR)和CellBender。去除單細(xì)胞基因表達(dá)中環(huán)境RNA引起的背景信號(hào)可以改善下游分析和生物學(xué)解釋

在高通量scRNA-seq實(shí)驗(yàn)中,觀察到高比率的雙細(xì)胞并不罕見(jiàn),其可達(dá)細(xì)胞條形碼的40%。因此,僅考慮計(jì)數(shù)深度和檢測(cè)基因數(shù)量的過(guò)濾步驟是不夠的,特別是當(dāng)細(xì)胞類型組成復(fù)雜時(shí),單細(xì)胞的計(jì)數(shù)深度分布與雙細(xì)胞的計(jì)數(shù)深度分布沒(méi)有區(qū)別。由不同細(xì)胞類型組成的雙細(xì)胞可能會(huì)混淆下游分析,特別是在細(xì)胞聚類、差異表達(dá)分析和軌跡推斷中。幸運(yùn)的是,已經(jīng)開發(fā)了許多復(fù)雜的方法來(lái)解開這些混雜的信號(hào)。這些方法考慮單個(gè)細(xì)胞條形碼的基因表達(dá)譜,并報(bào)告雙細(xì)胞分?jǐn)?shù)作為指標(biāo)。雙細(xì)胞評(píng)分的計(jì)算基于人工雙細(xì)胞[如單細(xì)胞去除雙細(xì)胞(Scrublet), doubletCells,基于二元分類的雙細(xì)胞評(píng)分(bcds), DoubletDetection, DoubletFinder, Solo, DoubletDecon]或基因共表達(dá)[如基于共表達(dá)的雙細(xì)胞評(píng)分(cxds)。在最近的一項(xiàng)研究中,使用一組綜合的合成和真實(shí)數(shù)據(jù)對(duì)現(xiàn)有的計(jì)算雙檢測(cè)方法進(jìn)行了基準(zhǔn)測(cè)試,推薦使用Doubletfinder工具,因?yàn)樗谙掠畏治鲋袑?shí)現(xiàn)了最高的檢測(cè)精度和最佳的性能。

Expression normalization

每個(gè)細(xì)胞總UMI計(jì)數(shù)的可變性取決于技術(shù)和生物學(xué)參數(shù)的范圍。技術(shù)因素與RNA捕獲效率、逆轉(zhuǎn)錄、cDNA擴(kuò)增和測(cè)序深度有關(guān),而生物學(xué)因素主要與細(xì)胞大小和細(xì)胞周期階段有關(guān)。由于這種變異,除非在測(cè)序文庫(kù)中添加外部的spike-in RNA對(duì)照,否則幾乎不可能獲得RNA分子的絕對(duì)數(shù)量。與bulk RNA-seq一樣,相對(duì)RNA豐度通常用于比較單個(gè)細(xì)胞之間的基因表達(dá)譜;因此,scRNA-seq數(shù)據(jù)通常采用global-scaling方法進(jìn)行歸一化,其中scaling factors是為bulk RNA-seq開發(fā)的,這部分抑制了技術(shù)效應(yīng)。Popular global-scaling methods for bulk RNA-seq include transcript per million (TPM), upper quartile (UQ) normalization, trimmed mean of M values (TMM) normalization, and the DESeq normalization method,然而,由于通過(guò)零膨脹的扭曲趨勢(shì),不適用于scRNA-seq。為scRNA-seq量身定制的歸一化方法,包括單細(xì)胞差異表達(dá)(SCDE)和基于模型的單細(xì)胞轉(zhuǎn)錄組學(xué)分析(MAST),可以具體模擬scRNA-seq數(shù)據(jù)差異表達(dá)分析中的缺失事件。另一種方法,Scran,通過(guò)匯集相似基因表達(dá)譜的細(xì)胞,克服了縮放因子估計(jì)的問(wèn)題(受太多零計(jì)數(shù)的影響)。Scran的池化策略在縮放因子估計(jì)方面優(yōu)于比較工具,TPM-/count深度縮放方法在實(shí)踐中得到廣泛應(yīng)用
在基于縮放因子的歸一化之后,通常將結(jié)果值添加到一個(gè)偽計(jì)數(shù)并進(jìn)行對(duì)數(shù)轉(zhuǎn)換。這一步實(shí)際上是有用的,在統(tǒng)計(jì)上是合理的,因?yàn)樗鼫p輕了scRNA-seq計(jì)數(shù)數(shù)據(jù)中的均值-方差關(guān)系,也減少了表達(dá)數(shù)據(jù)中的偏態(tài)。為了更好地穩(wěn)定方差,SCTransform(由Seurat團(tuán)隊(duì)開發(fā)),它應(yīng)用正則化負(fù)二項(xiàng)式回歸進(jìn)行scRNA-seq數(shù)據(jù)歸一化和方差穩(wěn)定性。
一些已知的生物效應(yīng),如細(xì)胞周期和細(xì)胞應(yīng)激(以線粒體基因的過(guò)度表達(dá)為特征),可能會(huì)阻礙對(duì)特定生物信號(hào)的表征。因此,對(duì)已知生物學(xué)的表達(dá)譜進(jìn)行規(guī)范化或校正可能有助于解釋數(shù)據(jù)。例如,糾正細(xì)胞周期的影響可以改善發(fā)育軌跡的重建。計(jì)算生物效應(yīng)的程序可以通過(guò)對(duì)相關(guān)生物學(xué)特征(例如,細(xì)胞周期分?jǐn)?shù))進(jìn)行評(píng)分來(lái)實(shí)現(xiàn),然后對(duì)Seurat中實(shí)現(xiàn)的計(jì)算分?jǐn)?shù)進(jìn)行簡(jiǎn)單的線性回歸。此外,單細(xì)胞潛在變量模型(scLVM)/階乘單細(xì)胞潛在變量模型(f-scLVM)和細(xì)胞生長(zhǎng)校正(cgCorrect)等專用工具也可用于此目的。值得注意的是,糾正一種特定分析的生物效應(yīng)(例如,細(xì)胞分化)可能會(huì)無(wú)意中阻礙另一種分析的信號(hào)(例如,細(xì)胞增殖);在為特定的分析任務(wù)選擇數(shù)據(jù)規(guī)范化策略時(shí)應(yīng)該謹(jǐn)慎。

Data integration

正如在“實(shí)驗(yàn)設(shè)計(jì)”中提到的,生物醫(yī)學(xué)研究通常會(huì)進(jìn)行病例與對(duì)照組的比較。通常,從不同醫(yī)療中心或醫(yī)院獲得的批次樣品應(yīng)該在下游分析之前進(jìn)行整合。對(duì)于使用患者來(lái)源的類器官的研究,數(shù)據(jù)集成也適用于在不同時(shí)間點(diǎn)收獲的細(xì)胞,以描述類器官的發(fā)育。在這些情況下,另一個(gè)不必要的技術(shù)因素,批次效應(yīng),是無(wú)法避免的,因?yàn)榧?xì)胞和文庫(kù)制備是由不同的人,在不同的時(shí)間點(diǎn),或用不同批次的試劑處理的。在scRNA-seq中,批效應(yīng)可能是非線性的,這可能不容易被最先進(jìn)的批校正工具(如ComBat)解開。因此,最近在scRNA-seq數(shù)據(jù)集成中開發(fā)了許多批效應(yīng)校正方法,試圖在保留生物變異的同時(shí)減輕或消除批特定偏差造成的影響。批量效應(yīng)校正方法可分為以下幾類:1)用于bulk表達(dá)分析的工具,包括ComBat和limma;2)基于高維基因表達(dá)空間及其子空間中相互近鄰(MNN)的方法,如mnnCorrect、fastMNN、Scanorama和批量平衡k近鄰(BBKNN);3)嘗試在降維空間中以相關(guān)/共享特征對(duì)齊細(xì)胞的方法,包括典型相關(guān)分析(CCA)、Harmony和基因組實(shí)驗(yàn)關(guān)系的關(guān)聯(lián)推斷(LIGER);4)基于深度生成模型的方法,如scGen。此外,根據(jù)整合錨點(diǎn)的選擇,算法還可以分為不同的類型,例如以基因組特征為錨點(diǎn),以細(xì)胞為錨點(diǎn)。

文章A benchmark of batch-effect correction methods for single-cell RNA sequencing data比較了當(dāng)時(shí)在5種不同集成場(chǎng)景下的10個(gè)數(shù)據(jù)集上可用的14種批量效應(yīng)校正方法。其中,根據(jù)Seurat 3中實(shí)現(xiàn)的Harmony、LIGER和CCA的整體性能,推薦使用。結(jié)合項(xiàng)目經(jīng)驗(yàn),建議依次使用Harmony、Seurat3/4-CCA、LIGER進(jìn)行數(shù)據(jù)集成。這是因?yàn)樵谔幚聿煌臄?shù)據(jù)集時(shí),這三種策略中沒(méi)有明顯的優(yōu)劣之分。Harmony比其他工具運(yùn)行得更快,適合初始探索;Seurat3/4-CCA在不同批次的細(xì)胞混合中是適度的,而LIGER在批量混合中做出了最大的努力,有時(shí)以細(xì)胞類型純度為代價(jià)。值得注意的是,如果有人想評(píng)估批效應(yīng)校正的有效性或評(píng)估數(shù)據(jù)中的批效應(yīng)的程度,可以通過(guò)比較基于批效應(yīng)校正分析的聚類或可視化結(jié)果,以及通過(guò)直接合并來(lái)自多個(gè)樣本的細(xì)胞(例如Seurat中的合并函數(shù)),并通過(guò)計(jì)算測(cè)試指標(biāo),如k-最近鄰批效應(yīng)檢驗(yàn)(kBET)來(lái)實(shí)現(xiàn)。

Feature selection

當(dāng)細(xì)胞QC去除背景細(xì)胞和有問(wèn)題的細(xì)胞時(shí),特征部分是關(guān)于基因的。在人類基因組中,有超過(guò)20,000個(gè)基因被注釋,并對(duì)單個(gè)基因位點(diǎn)的mapping讀數(shù)進(jìn)行計(jì)數(shù),以產(chǎn)生UMI計(jì)數(shù)矩陣。然而,并不是所有的> 20,000個(gè)基因都能在表征細(xì)胞間異質(zhì)性或區(qū)分細(xì)胞類型/狀態(tài)方面提供信息。因此,“特征選擇”一詞是從統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域借來(lái)的,用來(lái)描述為下游分析選擇具有生物學(xué)信息的基因的過(guò)程。這一過(guò)程通常是無(wú)監(jiān)督的,這意味著不需要與細(xì)胞類型或其他感興趣的生物過(guò)程相關(guān)的信息。
考慮到scRNAseq數(shù)據(jù)中相對(duì)較高的噪聲水平,特征選擇通常識(shí)別出生物變異性比技術(shù)噪聲更強(qiáng)的基因。由于技術(shù)噪聲很大程度上依賴于基因的平均表達(dá),高變基因(hvg)最初是通過(guò)檢查變異系數(shù)和表達(dá)均值之間的關(guān)系來(lái)識(shí)別的。由于其在降低技術(shù)噪聲和緩解下游分析中的計(jì)算需求方面的有用性,例如細(xì)胞聚類和可視化的降維,許多其他用于HVG識(shí)別的工具被開發(fā)出來(lái)并進(jìn)行了比較評(píng)估。替代的特征選擇方法不是識(shí)別hvg,而是考慮退出并優(yōu)先考慮觀察到的零數(shù)量高于預(yù)期的基因。
從理論上講,選擇用于下游分析的基因數(shù)量取決于所研究樣本中細(xì)胞組成的復(fù)雜性。雖然用于HVG識(shí)別的方法可以確定給定顯著性水平上的HVG數(shù)量,但識(shí)別固定數(shù)量的HVG正變得流行,通常HVG數(shù)量在1000到5000之間。研究表明,下游分析對(duì)hvg的確切數(shù)量不敏感。值得注意的是,一些不利的協(xié)變量,如批效應(yīng),可能會(huì)扭曲HVG識(shí)別。因此,應(yīng)在校正協(xié)變量后進(jìn)行HVG選擇。在存在批效應(yīng)的情況下,特征選擇也可以在數(shù)據(jù)整合之前對(duì)單個(gè)樣本進(jìn)行。

Dimensionality reduction and visualization

在選擇1000-5000個(gè)hvg的情況下,表達(dá)式數(shù)據(jù)的維數(shù)仍然很高,從而阻礙了對(duì)數(shù)據(jù)集的人工檢查,如可視化、聚類和細(xì)胞類型注釋。為此,可以通過(guò)降維技術(shù)進(jìn)一步降低表達(dá)矩陣的維度,將細(xì)胞從高維空間投射到低維嵌入空間,并保留細(xì)胞間變異的生物學(xué)信息。常用的降維方法有主成分分析(PCA)、非負(fù)矩陣分解(NMF)、多維標(biāo)度(MDS)、t分布隨機(jī)鄰居嵌入(t-SNE)和均勻流形近似投影(UMAP)等。

PCA是一種通用的降維降噪技術(shù),在scRNAseq數(shù)據(jù)分析中得到了廣泛應(yīng)用。通過(guò)將原始表達(dá)式矩陣線性投影到其子空間,主成分分析按照重要程度的順序給出主成分(PCs)。雖然前兩到三維pc可以用于可視化,但通常保留更多的pc用于下游分析,如細(xì)胞聚類和軌跡推斷。保留的pc數(shù)量很大程度上取決于數(shù)據(jù)集的復(fù)雜性,可以通過(guò)“elbow”方法或基于jackstraw排列測(cè)試的方法確定。然而,PCA在分析中不能考慮dropout事件,這導(dǎo)致了一些新的方法的發(fā)展。零膨脹因子分析(zero - inflation factor analysis, ZIFA)是其中一種基于因子分析的方法,該方法能清晰地模擬失學(xué)率特征,并優(yōu)于比較方法。與PCA相似,NMF是一種線性投影降維方法,在基于scRNA-seq的細(xì)胞聚類中表現(xiàn)出了穩(wěn)健的性能。

對(duì)于可視化,非線性降維方法更適合,它允許在二維/三維空間中進(jìn)行全局非線性嵌入。MDS是一種非線性降維方法,它保留了原始空間中細(xì)胞間的距離。然而,MDS不能擴(kuò)展到大規(guī)模的scRNA-seq數(shù)據(jù),因?yàn)楫?dāng)細(xì)胞數(shù)很大時(shí),計(jì)算成對(duì)距離變得困難。越來(lái)越多的證據(jù)表明t-SNE和UMAP更適合用于scRNA-seq數(shù)據(jù),scRNA-seq數(shù)據(jù)已廣泛應(yīng)用于單細(xì)胞分析,用于數(shù)據(jù)可視化和細(xì)胞群識(shí)別。然而,t-SNE通常存在一些局限性,例如對(duì)于大規(guī)模scRNA-seq數(shù)據(jù)集的計(jì)算時(shí)間較慢,并且沒(méi)有保留全局?jǐn)?shù)據(jù)結(jié)構(gòu)。UMAP具有上述兩方面的優(yōu)勢(shì),成為目前最受歡迎的降維選擇。UMAP不僅有助于可視化細(xì)胞類群,還有助于注釋細(xì)胞類群。然而,值得注意的是,雖然UMAP在保存全局?jǐn)?shù)據(jù)結(jié)構(gòu)和捕獲局部相似性之間取得了平衡,但結(jié)果空間中的細(xì)胞之間的距離并沒(méi)有被保留。因此,像聚類和偽時(shí)間推斷這樣的下游分析通常是基于幾個(gè)到幾十個(gè)pc的PCA結(jié)果執(zhí)行的

Identification of cell subpopulations

單細(xì)胞轉(zhuǎn)錄組學(xué)的關(guān)鍵應(yīng)用之一是基于細(xì)胞聚類或分類來(lái)確定細(xì)胞亞群。由于scRNA-seq數(shù)據(jù)中存在高水平的噪聲,對(duì)scRNA-seq矩陣數(shù)據(jù)應(yīng)用降維方法可能有助于細(xì)胞聚類。雖然PCA通常用于bulk RNA-seq,但細(xì)胞亞群之間基因表達(dá)的真正生物學(xué)變異性可能不容易通過(guò)少量的pc來(lái)區(qū)分。為了更好地解釋這種變化,NMF被用于在單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中分離亞群,并已被證明優(yōu)于PCA,具有更高的準(zhǔn)確性和穩(wěn)健性。同樣,SinNLRR被開發(fā)用于通過(guò)非負(fù)和低秩表示提供基因表達(dá)子空間的穩(wěn)健聚類。

最先進(jìn)的聚類方法,如k-means算法,也已應(yīng)用于scRNAseq數(shù)據(jù)集,并基于此應(yīng)用開發(fā)了單細(xì)胞共識(shí)聚類(SC3)方法。scRNA-seq中另一類常用的細(xì)胞聚類方法是基于細(xì)胞最近鄰網(wǎng)絡(luò)的社區(qū)檢測(cè)方法,該方法在Seurat R包中被采用和實(shí)現(xiàn)。此外,還開發(fā)了多種細(xì)胞聚類方法。例如,BackSPIN利用了雙聚類技術(shù)來(lái)避免層次聚類中不利的成對(duì)比較,通過(guò)多核學(xué)習(xí)的單細(xì)胞解釋(SIMLR)基于多核學(xué)習(xí),通過(guò)imputation和降維聚類(CIDR)利用imputation來(lái)減輕scRNA-seq中退出的影響,通過(guò)混合模型的單細(xì)胞聚合聚類集成聚類(SAME-clustering)集成聚類由多種方法產(chǎn)生。然而,兩項(xiàng)獨(dú)立的基準(zhǔn)測(cè)試研究表明,SC3和Seurat中的聚類方法表現(xiàn)相似,并且優(yōu)于所有其他比較方法。

相似度或距離度量對(duì)于scRNA-seq中的聚類細(xì)胞至關(guān)重要,這可以特定于實(shí)驗(yàn)平臺(tái)或特定樣本。研究表明,與無(wú)監(jiān)督聚類方法相比,用于細(xì)胞類型識(shí)別的監(jiān)督方法較少受到批效應(yīng)、細(xì)胞類型數(shù)量和細(xì)胞群體組成不平衡的影響。在機(jī)制上,監(jiān)督方法依賴于一個(gè)全面的參考數(shù)據(jù)庫(kù),已知的細(xì)胞類型注釋,在此基礎(chǔ)上訓(xùn)練分類模型來(lái)預(yù)測(cè)未注釋數(shù)據(jù)集中的細(xì)胞類型。CellAssign、scmap、單細(xì)胞識(shí)別(SingleR)、分級(jí)分類輔助的細(xì)胞類型表征(CHETAH)和SingleCellNet是該類方法。盡管監(jiān)督方法具有明顯的優(yōu)勢(shì),但非監(jiān)督方法通常更擅長(zhǎng)識(shí)別未知細(xì)胞類型,具有更高的計(jì)算效率。因此,在Seurat中實(shí)現(xiàn)的聚類方法綜合性能最好,建議作為細(xì)胞類型識(shí)別的首選方法。

單細(xì)胞聚類分析的另一個(gè)重要問(wèn)題是罕見(jiàn)細(xì)胞類型的檢測(cè),這些細(xì)胞類型在復(fù)雜疾病中發(fā)揮重要作用,但豐度較低。RaceID, GiniClust, sincerely和dendrisplit是專為在scRNA-seq數(shù)據(jù)分析中識(shí)別罕見(jiàn)細(xì)胞類型而設(shè)計(jì)的聚類算法。

Cell type annotation

為細(xì)胞亞群分配細(xì)胞身份(稱為細(xì)胞類型注釋)是scRNA-seq數(shù)據(jù)分析的關(guān)鍵步驟。手動(dòng)注釋細(xì)胞類型非常耗時(shí),而且可能是主觀的。因此,新興的計(jì)算工具已經(jīng)開發(fā)用于自動(dòng)細(xì)胞類型注釋。這些計(jì)算方法通常可以分為三大類。


第一種類型是基于標(biāo)記基因的,它依賴于公共數(shù)據(jù)庫(kù)或文獻(xiàn)中細(xì)胞類型特異性標(biāo)記的可用性。CellMarker和PanglaoDB是常用的在線資源,存儲(chǔ)了人類和小鼠組織中各種細(xì)胞類型的標(biāo)記。CellMarker通過(guò)手動(dòng)管理超過(guò)10萬(wàn)篇發(fā)表的論文,保存了大約500種人類細(xì)胞類型的13000多個(gè)細(xì)胞標(biāo)記,PanglaoDB是一個(gè)細(xì)胞標(biāo)記概要,包含來(lái)自1000多個(gè)scRNA-seq實(shí)驗(yàn)的6000個(gè)不同細(xì)胞類型的標(biāo)記。此外,開發(fā)了TF-Marker數(shù)據(jù)庫(kù),為人類提供細(xì)胞或組織特異性tf和相關(guān)標(biāo)記。這些數(shù)據(jù)庫(kù)是細(xì)胞類型注釋的寶貴資源。與此同時(shí),已經(jīng)開發(fā)了許多使用標(biāo)記基因進(jìn)行細(xì)胞類型注釋的工具,如ScType、scSorter、半監(jiān)督類別識(shí)別和分配(SCINA)、基于單細(xì)胞集群的細(xì)胞異質(zhì)性自動(dòng)注釋工具包(scCATCH)和CellAssign。其中一些方法應(yīng)用復(fù)雜的統(tǒng)計(jì)模型來(lái)利用標(biāo)記基因的先驗(yàn)知識(shí)。例如,SCINA建立了一個(gè)半監(jiān)督模型,利用期望最大化(EM)算法利用先前識(shí)別的標(biāo)記基因,CellAssign利用概率圖形模型,根據(jù)細(xì)胞類型標(biāo)記基因的先驗(yàn)知識(shí)將細(xì)胞注釋為預(yù)定義的或新的細(xì)胞類型,同時(shí)考慮批次和樣本效應(yīng)。

第二種方法是基于參考轉(zhuǎn)錄組的,它使用細(xì)胞類型標(biāo)記的scRNA-seq數(shù)據(jù)集作為細(xì)胞類型注釋的輸入,通過(guò)搜索查詢數(shù)據(jù)與參考數(shù)據(jù)之間的最佳相關(guān)性。這組常用的工具包括CHETAH, scmap, scMatch和SingleR。CHETAH算法基于由已知細(xì)胞類型的引用概要文件構(gòu)建的分層樹,并通過(guò)從根節(jié)點(diǎn)到葉節(jié)點(diǎn)逐步遍歷樹來(lái)搜索細(xì)胞的最佳注釋?;?00個(gè)最具辨識(shí)性的基因,計(jì)算輸入細(xì)胞與所考慮的兩個(gè)樹枝的相關(guān)系數(shù),計(jì)算出選擇樹枝繼續(xù)樹遍歷的剖面分?jǐn)?shù)和置信度分?jǐn)?shù)。SingleR方法將每個(gè)未注釋的單細(xì)胞轉(zhuǎn)錄組與參考數(shù)據(jù)中基于hvg的已知細(xì)胞類型的參考轉(zhuǎn)錄組相關(guān)聯(lián)。SingleR以迭代的方式分配細(xì)胞標(biāo)識(shí),并且在每次迭代中縮減參考集以細(xì)化分配。值得注意的是,參考轉(zhuǎn)錄組數(shù)據(jù)的全面性對(duì)這組方法至關(guān)重要。常用的參考數(shù)據(jù)有Blueprint、Encode和Human Primary Cell Atlas。

最后,第三種利用基于監(jiān)督機(jī)器學(xué)習(xí)的方法,其中由標(biāo)記參考訓(xùn)練的分類器然后應(yīng)用于預(yù)測(cè)未注釋細(xì)胞的細(xì)胞類型。例如,SingleCellNet使用多類隨機(jī)森林分類器,使用神經(jīng)網(wǎng)絡(luò)的自動(dòng)細(xì)胞類型識(shí)別(ACTINN)使用人工神經(jīng)網(wǎng)絡(luò),scPred使用支持向量機(jī)(SVM), scclassification使用集成學(xué)習(xí)進(jìn)行細(xì)胞類型注釋。此外,ontology-based的單細(xì)胞分類(OnClass)還可以通過(guò)識(shí)別由細(xì)胞本體和未注釋的細(xì)胞產(chǎn)生的低維嵌入中最近的細(xì)胞類型,準(zhǔn)確地注釋訓(xùn)練數(shù)據(jù)集中沒(méi)有的細(xì)胞類型。

細(xì)胞類型注釋的自動(dòng)化方法已應(yīng)用于廣泛的生物醫(yī)學(xué)研究,包括癌癥研究。然而,最近的一項(xiàng)基準(zhǔn)研究表明,每種計(jì)算方法在不同的場(chǎng)景下都具有特定的優(yōu)勢(shì),這使得臨床用戶很難選擇合適的工具。集成來(lái)自多個(gè)工具的注釋結(jié)果可能是上述問(wèn)題的解決方案,并可能實(shí)現(xiàn)更準(zhǔn)確的細(xì)胞類型注釋。因此,最近開發(fā)了用于免疫細(xì)胞聚類和注釋的ImmCluster,集成了7種基于參考和4種基于標(biāo)記基因的計(jì)算方法,并由手動(dòng)策劃的標(biāo)記基因集支持。比較研究表明,與單個(gè)方法相比,ImmCluster提供了更準(zhǔn)確和穩(wěn)定的細(xì)胞類型注釋。

Marker gene identification

特定細(xì)胞群或細(xì)胞類型的標(biāo)記基因是表征其功能的重要資源。反過(guò)來(lái),如上所示,標(biāo)記基因也可以用于細(xì)胞類型注釋。識(shí)別細(xì)胞簇/類型特異性基因的典型方法是基于統(tǒng)計(jì)檢驗(yàn)在簇中識(shí)別差異表達(dá)基因(DEGs)。例如,scRNA-seq分析pipeline Seurat和sincerely使用非參數(shù)Wilcoxon 's秩和檢驗(yàn)來(lái)識(shí)別特定細(xì)胞類型的高表達(dá)基因。研究表明,Wilcoxon秩和檢驗(yàn)的假陽(yáng)性率低于基于測(cè)序的DEG分析的專用方法[例如,DESeq2和R (edgeR)中數(shù)字基因表達(dá)(DGE)的實(shí)證分析]。此外,SC3采用非參數(shù)Kruskal-Wallis檢驗(yàn)對(duì)兩組以上細(xì)胞進(jìn)行比較。考慮到scRNA-seq中的缺失以及細(xì)胞類型或狀態(tài)之間基因表達(dá)分布的差異,許多其他方法被開發(fā)用于標(biāo)記基因鑒定,如MAST, SCDE和DEsingle。

還有一類方法是在細(xì)胞聚類過(guò)程中同時(shí)識(shí)別細(xì)胞特異性基因,而不是在此之后再進(jìn)行一步。如前所述,BackSPIN是基于一種聚類方法,即在聚類細(xì)胞時(shí)將高表達(dá)基因聚在一起。同樣,迭代聚類和導(dǎo)向基因選擇(ICGS)首先通過(guò)表達(dá)基因的成對(duì)相關(guān)性來(lái)識(shí)別導(dǎo)向基因,然后對(duì)導(dǎo)向基因進(jìn)行迭代聚類。此外,DendroSplit在識(shí)別subcluster時(shí)考慮標(biāo)記基因的顯著性水平。最后,對(duì)單個(gè)細(xì)胞中基因表達(dá)的分布進(jìn)行統(tǒng)計(jì)建模,開發(fā)了scRNA-seq數(shù)據(jù)的方差驅(qū)動(dòng)多任務(wù)聚類(scVDMC)、BPSC和偏差校正測(cè)序分析(BCseq)等方法,以改進(jìn)細(xì)胞亞型鑒定和差異表達(dá)分析。

關(guān)于scRNA-seq中DEG工具的最佳選擇,最近的一項(xiàng)研究比較了36種方法,發(fā)現(xiàn)了所比較的方法之間的根本差異。有人指出,低表達(dá)基因的預(yù)過(guò)濾可能有助于DEG分析,用于bulk RNA-seq分析的方法通常與專門為scRNA-seq開發(fā)的方法具有相當(dāng)?shù)男阅?。總體而言,除復(fù)雜的實(shí)驗(yàn)設(shè)計(jì)外,非參數(shù)Wilcoxon’s秩和檢驗(yàn)在大多數(shù)應(yīng)用場(chǎng)景中排名較高。

Functional enrichment analysis

為了促進(jìn)在每種細(xì)胞類型中鑒定的標(biāo)記基因的解釋和組織,通常進(jìn)行功能富集分析。為bulk 轉(zhuǎn)錄組學(xué)開發(fā)的計(jì)算方法可以很容易地應(yīng)用于這種分析,例如用于注釋的數(shù)據(jù)庫(kù)、可視化和集成發(fā)現(xiàn)(DAVID)。這種分析需要一個(gè)統(tǒng)計(jì)顯著性的硬界限來(lái)定義標(biāo)記基因;相比之下,廣泛使用的基因集富集分析(GSEA)是一種無(wú)截?cái)嗟姆椒?。GSEA首先根據(jù)感興趣的細(xì)胞群之間的差異表達(dá)統(tǒng)計(jì)數(shù)據(jù)對(duì)基因進(jìn)行排序,然后統(tǒng)計(jì)評(píng)估一個(gè)功能有意義的基因集或途徑是否在排名列表的頂部或底部顯著過(guò)度代表。為了便于GSEA分析,分子特征數(shù)據(jù)庫(kù)(MSigDB)提供了一系列標(biāo)注的基因集,包括通路和標(biāo)記基因特征。

除了上述基于標(biāo)記基因或兩組細(xì)胞差異表達(dá)進(jìn)行功能標(biāo)注的情況外,富集分析還可以在單細(xì)胞水平上進(jìn)行。單樣本GSEA (ssGSEA)和基因集變異分析(GSVA)是GSEA的類似物,用于單個(gè)散裝樣品的富集分析,目前已廣泛用于scRNA-seq計(jì)算特征評(píng)分。此外,考慮到其在scRNA-seq中的特點(diǎn),還提出了更具體的工具,包括Vision、Pagoda2、AUCell、單細(xì)胞簽名瀏覽器(SCSE)和聯(lián)合評(píng)估簽名均值和推斷富集(JASMINE),總體上更適合用于scRNA-seq中的簽名評(píng)分。此外,這些特征評(píng)分方法也可用于通路活性推斷。

Trajectory inference and RNA velocity

除了scRNA-seq可以捕捉到的細(xì)胞間異質(zhì)性外,轉(zhuǎn)錄組的動(dòng)態(tài)也可能反映了發(fā)育軌跡或細(xì)胞狀態(tài)的轉(zhuǎn)變。軌跡推斷、偽時(shí)間估計(jì)和RNA速率建模都有助于揭示細(xì)胞分化或激活過(guò)程中的分子特征和調(diào)控機(jī)制。

軌跡推斷是過(guò)去幾年的一個(gè)熱門研究領(lǐng)域,開發(fā)了大約100個(gè)計(jì)算工具,促進(jìn)了發(fā)育生物學(xué)以及癌癥發(fā)展和免疫反應(yīng)狀態(tài)改變的研究。此外,應(yīng)用這類方法還可以促進(jìn)新細(xì)胞類型的客觀識(shí)別,以及在發(fā)育或狀態(tài)轉(zhuǎn)換過(guò)程中調(diào)節(jié)網(wǎng)絡(luò)的推斷。根據(jù)軌跡的類型,軌跡推斷方法也可以分為不同的類別,包括線性方法[如SCORPIUS,單細(xì)胞分析工具(TSCAN), Wanderlust,分叉方法[如擴(kuò)散偽時(shí)間(DPT) , Wishbone],多分叉方法[如FateID, STEMNET,混合因子分析器(MFA)],樹方法(如Slingshot, scTite, Monocle),圖形方法[如基于分區(qū)的圖形抽象(PAGA),稀有細(xì)胞類型鑒定(RaceID),細(xì)胞表達(dá)關(guān)系的選擇性局部線性推斷(SLICER)]。目前,軌跡推斷方法日趨成熟,特別是線性和分叉方法。基于最近的基準(zhǔn)研究,給出了實(shí)際應(yīng)用的指導(dǎo)方針,以便生物醫(yī)學(xué)研究人員可以根據(jù)數(shù)據(jù)中預(yù)期拓?fù)涞南闰?yàn)知識(shí)選擇適當(dāng)?shù)姆椒?否則,建議使用PAGA、Monocle、RaceID和Slingshot進(jìn)行初步研究

根據(jù)現(xiàn)有的生物學(xué)知識(shí),在推斷發(fā)育或轉(zhuǎn)變軌跡的起點(diǎn)上,沿著軌跡的細(xì)胞可以以偽時(shí)間順序排列。如果軌跡中存在分叉、多分叉或樹形結(jié)構(gòu),則應(yīng)采用多條路徑分別經(jīng)過(guò)樹枝。這樣,就很容易研究沿偽時(shí)間的基因表達(dá)動(dòng)態(tài)。建立了基于軌跡/偽時(shí)間的差異表達(dá)分析方法,揭示了譜系/狀態(tài)規(guī)范的動(dòng)態(tài)調(diào)控。

捕捉轉(zhuǎn)錄組動(dòng)態(tài)的另一種方法是使用RNA速率,這是基于同一細(xì)胞中成熟和未成熟轉(zhuǎn)錄本(即未剪接的內(nèi)含子)之間的關(guān)系。如果細(xì)胞中有相對(duì)較多的未剪接轉(zhuǎn)錄本,則該基因處于上調(diào)狀態(tài),反之亦然。聯(lián)合量化成熟與未成熟轉(zhuǎn)錄物的比值,以及狀態(tài)變化過(guò)程中基因表達(dá)的變化,從而確定細(xì)胞轉(zhuǎn)化的方向。這一基本原理已在第一個(gè)RNA速率方法Velocyto中實(shí)現(xiàn),并在后續(xù)方法scVelo中進(jìn)行了改進(jìn),其中采用了likelihood-based的動(dòng)力學(xué)模型。此外,最近開發(fā)的方法將RNA速率與軌跡推斷相結(jié)合,從而實(shí)現(xiàn)獨(dú)立于先驗(yàn)知識(shí)的定向軌跡推斷。例如,CellRank利用了軌跡推斷的魯棒性和來(lái)自RNA速度的方向信息,能夠檢測(cè)以前未知的軌跡和細(xì)胞狀態(tài)。CellPath是另一種整合單細(xì)胞基因表達(dá)動(dòng)態(tài)和RNA速度信息進(jìn)行軌跡推斷的方法。

Cell–cell communications

CCC事件在機(jī)體的發(fā)育和穩(wěn)態(tài)、疾病的發(fā)生和發(fā)展中起著重要作用。例如,腫瘤微環(huán)境是由腫瘤細(xì)胞、基質(zhì)細(xì)胞和多種免疫細(xì)胞組成的復(fù)雜生態(tài)系統(tǒng),這些細(xì)胞之間的通信異?;蛑袛嗫赡艽龠M(jìn)腫瘤生長(zhǎng)。為此,開發(fā)了各種計(jì)算工具來(lái)使用scRNA-seq數(shù)據(jù)推斷CCC。細(xì)胞間的通訊通常依賴于配體-受體(LR)的相互作用,這通常是量化LR共表達(dá)。

為了便于上述研究,已知的配體受體相互作用(LRIs)已被手動(dòng)整理并存入數(shù)據(jù)庫(kù)。到目前為止,LRI數(shù)據(jù)庫(kù)有相當(dāng)多,包括CellPhoneDB, ICELLNET, CellTalkDB, SingleCell - signaLR和Omnipath。最近更新的CellPhoneDB(版本4)包括近2000個(gè)配體和受體蛋白之間的高置信相互作用,以及異構(gòu)體蛋白復(fù)合物CellTalkDB是另一個(gè)綜合性的人類和小鼠LRI數(shù)據(jù)庫(kù),包括3398對(duì)人類LR對(duì)和2033對(duì)小鼠LR對(duì)。同時(shí),scRNA-seq數(shù)據(jù)使用前面提到的方法進(jìn)行細(xì)胞聚類和注釋。將注釋的scRNA-seq數(shù)據(jù)與已知的LRIs集成,通常計(jì)算樣本特定的LR分?jǐn)?shù),量化相互作用的潛力。基于LR共表達(dá),LR評(píng)分函數(shù)可分為表達(dá)閾值、表達(dá)相關(guān)、表達(dá)乘積和微分表達(dá)組合等幾類。例如,Camp等人僅在配體和受體的表達(dá)值都高于某一閾值[log2(FPKM)≥5]時(shí)才考慮LR配對(duì)。相比之下,SingleCellSignalR方法是基于LR基因表達(dá)水平的乘積。

近年來(lái),基于scRNA-seq數(shù)據(jù)預(yù)測(cè)CCC的計(jì)算方法不斷發(fā)展。CCC推理工具根據(jù)其特點(diǎn)可分為三類:基于網(wǎng)絡(luò)的推理工具、基于機(jī)器學(xué)習(xí)的推理工具和基于空間信息的推理工具?;诰W(wǎng)絡(luò)的方法,包括NicheNet、細(xì)胞-細(xì)胞通信資源管理器(CCCExplorer)、scConnect和多細(xì)胞相互作用網(wǎng)絡(luò)分析工具包(NATMI),利用基因之間的連接網(wǎng)絡(luò)來(lái)預(yù)測(cè)CCC。例如,NicheNet將單細(xì)胞表達(dá)數(shù)據(jù)與信號(hào)通路和基因調(diào)控網(wǎng)絡(luò)的先驗(yàn)知識(shí)整合在一起,其特點(diǎn)是應(yīng)用個(gè)性化PageRank算法,用于計(jì)算配體-靶標(biāo)調(diào)控潛在分?jǐn)?shù)。在基于機(jī)器學(xué)習(xí)的方法中采用了各種類型的機(jī)器學(xué)習(xí)算法,如SingleCellSignalR、基于相似矩陣優(yōu)化的單細(xì)胞數(shù)據(jù)分析(SoptSC)和Python最大信息網(wǎng)絡(luò)探索資源(PyMINEr)。此外,參考成分分析(RCA -CCA)、線性回歸和決策樹分類器也用于CCC預(yù)測(cè)。細(xì)胞在空間上的定位或細(xì)胞間的空間接近是細(xì)胞定位的前提;因此,考慮空間信息將提高CCC推斷的準(zhǔn)確性。隨著空間轉(zhuǎn)錄組學(xué)的快速發(fā)展,許多CCC推斷方法將scRNA-seq數(shù)據(jù)與空間轉(zhuǎn)錄組學(xué)和/或圖像數(shù)據(jù)相結(jié)合,用于識(shí)別CCC。CellTalker通過(guò)計(jì)算LRIs的數(shù)量來(lái)評(píng)分細(xì)胞類型之間的通信,然后使用圖像數(shù)據(jù)通過(guò)細(xì)胞之間的空間接近性來(lái)評(píng)估。此外,在Python (Squidpy)和組織學(xué)地形細(xì)胞術(shù)分析工具箱(histoCAT)中對(duì)分子數(shù)據(jù)的空間量化提供了空間組學(xué)數(shù)據(jù)的分析框架,其中可以通過(guò)細(xì)胞接近或鄰域分析來(lái)研究細(xì)胞間的通信。此外,CellChat的作者將空間信息作為評(píng)估不同CCC推斷方法的金標(biāo)準(zhǔn),并表明CellChat在預(yù)測(cè)更強(qiáng)的相互作用方面表現(xiàn)得更好。最后,通常采用熱圖、馬戲圖、桑基圖和氣泡圖對(duì)推理結(jié)果進(jìn)行可視化。

新興的用于識(shí)別CCC的計(jì)算方法提高了我們對(duì)疾病發(fā)展微環(huán)境的理解。然而,所有的方法都依賴于LRIs的先驗(yàn)知識(shí)和統(tǒng)計(jì)或機(jī)器學(xué)習(xí)模型來(lái)預(yù)測(cè)潛在的CCC事件。或者選擇LRI資源和預(yù)測(cè)方法可能會(huì)導(dǎo)致不同的結(jié)果,但選擇對(duì)結(jié)果的影響在很大程度上是未知的。為了解決這一問(wèn)題,最近的一項(xiàng)研究系統(tǒng)地比較了16種資源和7種CCC推斷方法,以及比較方法的一致性。對(duì)比表明,不同的LRI資源覆蓋了不同比例的集體先驗(yàn)知識(shí),預(yù)測(cè)的CCC在很大程度上相互不一致,這表明需要繼續(xù)努力改進(jìn)CCC推斷資源和工具。

Regulon inference and TF activity prediction

轉(zhuǎn)錄因子在基因表達(dá)調(diào)控中起著至關(guān)重要的作用,參與了人類的各種生理病理過(guò)程。在scRNA-seq中已經(jīng)實(shí)現(xiàn)了識(shí)別被感興趣的tf直接調(diào)控的共表達(dá)模塊,并將這些模塊定義為調(diào)控子。因此,繪制細(xì)胞類型特異性調(diào)控圖和重建單個(gè)細(xì)胞中基于調(diào)控的調(diào)控網(wǎng)絡(luò)成為可能。


識(shí)別規(guī)則的一個(gè)重要資源是TF-target數(shù)據(jù)庫(kù)。動(dòng)物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)(Animal Transcription Factor DataBase, AnimalTFDB)、JASPAR、基于語(yǔ)句的文本挖掘(trust)揭示的轉(zhuǎn)錄調(diào)控關(guān)系、KnockTF和Cistrome Data Browser (Cistrome DB)是應(yīng)用廣泛的TF注釋數(shù)據(jù)庫(kù),涵蓋了大多數(shù)人和小鼠的TF?;谶@些數(shù)據(jù)庫(kù),建立細(xì)胞類型特異性轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)的一種簡(jiǎn)單方法是識(shí)別上調(diào)的tf和/或差異表達(dá)的tf靶基因。例如,最近的一項(xiàng)scRNAseq研究基于AnimalTFDB TF注釋確定了差異表達(dá)的TF,并揭示了在胎兒上皮中表達(dá)的TF的再激活可能是克羅恩病的原因。

結(jié)合單細(xì)胞基因表達(dá)和全面的TF-靶標(biāo)信息,已經(jīng)有許多方法用于推斷規(guī)則和TF活性。共表達(dá)分析,如加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(WGCNA),已廣泛應(yīng)用于bulk樣本,以檢測(cè)可能由相同TF調(diào)節(jié)的基因模塊。最近,這種方法也被應(yīng)用于scRNA-seq數(shù)據(jù),例如,發(fā)現(xiàn)在HIV感染過(guò)程中表達(dá)發(fā)生顯著變化的基因模塊。單細(xì)胞調(diào)控網(wǎng)絡(luò)信息和聚類(single cell regulatory network information and clustering, SCENIC)方法是最早基于scRNA-seq數(shù)據(jù)進(jìn)行調(diào)控推理的方法,目前已被用于癌癥、COVID-19等多種疾病的調(diào)控網(wǎng)絡(luò)研究。在SCENIC中,首先通過(guò)隨機(jī)森林回歸等機(jī)器學(xué)習(xí)方法推斷TF與其目標(biāo)基因之間的共表達(dá)模塊,然后通過(guò)TF的binding motif分析進(jìn)行規(guī)則識(shí)別,只保留其在共表達(dá)模塊中的直接目標(biāo),形成規(guī)則。最后,計(jì)算二值化分?jǐn)?shù),以表明TF在每個(gè)細(xì)胞中的活性。其他方法,包括SCODE和SINCERITIES,利用scRNA-seq中重構(gòu)的偽時(shí)間信息,基于常微分方程或隨機(jī)微分方程模型推斷tf -靶標(biāo)調(diào)控網(wǎng)絡(luò)。此外,機(jī)器學(xué)習(xí)技術(shù)也被應(yīng)用于轉(zhuǎn)錄調(diào)控分析。例如,SIGNET采用多層感知器袋裝來(lái)識(shí)別規(guī)則,DeepDRIM采用監(jiān)督深度神經(jīng)網(wǎng)絡(luò)來(lái)重建基因調(diào)控網(wǎng)絡(luò)。特別是,DeepDRIM被證明能夠耐受scRNA-seq中的缺失事件,并在COVID-19輕、重度癥狀患者中識(shí)別出不同的B細(xì)胞調(diào)節(jié)網(wǎng)絡(luò)。

盡管基于scRNA-seq的基因調(diào)控分析方法很多,但由于轉(zhuǎn)錄調(diào)控的復(fù)雜性和scRNA-seq數(shù)據(jù)提供的信息不足,還需要對(duì)推斷結(jié)果進(jìn)行嚴(yán)格的判斷。進(jìn)行驗(yàn)證實(shí)驗(yàn)可以使推斷的結(jié)果更加可靠。

Metabolic analysis

代謝是所有生物過(guò)程的核心,代謝失調(diào)是許多疾病的標(biāo)志,包括癌癥、糖尿病和心血管疾病。雖然單細(xì)胞代謝組學(xué)技術(shù)正在迅速發(fā)展,但現(xiàn)在要大規(guī)模應(yīng)用還為時(shí)過(guò)早。相反,基于單細(xì)胞轉(zhuǎn)錄組學(xué)的代謝分析是一種有前途的替代方法。例如,研究人員可以使用scRNA-seq來(lái)監(jiān)測(cè)關(guān)鍵代謝基因在不同處理下或重要生理/病理過(guò)程中的基因表達(dá)變化
基于scrna序列的代謝分析的計(jì)算工具可分為兩大類:基于通路的分析和基于通量平衡分析(FBA)的方法。對(duì)于第一類,通常使用標(biāo)準(zhǔn)功能富集分析方法(請(qǐng)參閱題為功能富集分析的小節(jié))。特別是,R包scMetabolism為scRNA-seq中代謝途徑活性的定量分析提供了一個(gè)集成的框架,具有解釋退出的能力,并與用于單細(xì)胞功能富集分析的多種工具兼容,包括ssGSEA, Vision和AUCell。


另一類是基于fba的方法,其中利用基于約束的數(shù)學(xué)模型系統(tǒng)地模擬重建代謝網(wǎng)絡(luò)中的代謝。代謝網(wǎng)絡(luò)的重建通?;诓邉潝?shù)據(jù)庫(kù),如京都基因和基因組百科全書(KEGG)和Reactome;然后,F(xiàn)BA在滿足輸入和輸出通量約束的情況下計(jì)算系統(tǒng)的靜態(tài)代謝通量。單細(xì)胞中單個(gè)酶的表達(dá)水平可能不會(huì)直接影響網(wǎng)絡(luò)中的代謝通量,因?yàn)樗鼈冎饕蕾囉诰W(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和約束條件。據(jù)我們所知,單細(xì)胞通量平衡分析(scFBA)是第一個(gè)結(jié)合scRNA-seq數(shù)據(jù)和FBA來(lái)估計(jì)單細(xì)胞通量體的計(jì)算工具。后來(lái),提出了羅盤和單細(xì)胞通量估計(jì)分析(scFEA)。Compass基于Recon2對(duì)人體代謝的重建,并通過(guò)線性規(guī)劃解決基于約束的優(yōu)化問(wèn)題,對(duì)單個(gè)細(xì)胞中每個(gè)代謝反應(yīng)的潛在活性進(jìn)行評(píng)分。相比之下,scFEA引入了概率模型來(lái)考慮通量平衡約束,引入了多層神經(jīng)網(wǎng)絡(luò)來(lái)模擬通量變化和酶基因表達(dá)變化的非線性,并引入了圖神經(jīng)網(wǎng)絡(luò)來(lái)解決優(yōu)化問(wèn)題。scFEA的分析結(jié)果可以進(jìn)行各種生物學(xué)上有意義的下游分析,如細(xì)胞-細(xì)胞代謝通信。

discussion

最近,Live-seq已經(jīng)開發(fā)出來(lái),通過(guò)保持細(xì)胞存活,同時(shí)從單個(gè)細(xì)胞中提取RNA,將scRNA-seq從端點(diǎn)型分析轉(zhuǎn)換為時(shí)間分析工作流。預(yù)計(jì)Live-seq將解決scRNA-seq之外的許多其他生物學(xué)問(wèn)題。此外,其他基于測(cè)序的單細(xì)胞分析技術(shù)也在快速發(fā)展中。為了更好地了解疾病條件下改變基因表達(dá)的異常調(diào)節(jié),使用測(cè)序(ATAC-seq)的單細(xì)胞轉(zhuǎn)座子可達(dá)染色質(zhì)檢測(cè)(ATAC-seq)、單細(xì)胞DNA甲基化分析和單細(xì)胞Hi-C都有助于從不同角度在單細(xì)胞分辨率上解剖潛在的調(diào)控機(jī)制。算法也被開發(fā)來(lái)集成這些多模態(tài)單細(xì)胞數(shù)據(jù),能夠更好地解決細(xì)胞狀態(tài)和定義新的細(xì)胞亞型。此外,單細(xì)胞多組學(xué)方法可以同時(shí)分析相同細(xì)胞中的兩個(gè)組學(xué),為單個(gè)細(xì)胞提供調(diào)控元件和相應(yīng)基因表達(dá)水平的信息。這些技術(shù)生成的數(shù)據(jù)集可以幫助生物醫(yī)學(xué)研究人員發(fā)現(xiàn)特定疾病的調(diào)節(jié)程序,可能是在某些細(xì)胞類型的子集中。此外,雖然仍處于發(fā)育階段,但空間轉(zhuǎn)錄組學(xué)是一種很有前途的技術(shù),可以考慮細(xì)胞環(huán)境來(lái)表征特定細(xì)胞的分子特征。隨著空間轉(zhuǎn)錄組學(xué)分辨率的不斷提高,期望在分析細(xì)胞微環(huán)境和細(xì)胞與健康和疾病的相互作用方面獲得更深入的知識(shí)??偟膩?lái)說(shuō),隨著技術(shù)的不斷進(jìn)步,特別是那些以單細(xì)胞分辨率解析分子特性和相互作用的技術(shù),我們將能夠更好地了解各種疾病的發(fā)病機(jī)制,并在不久的將來(lái)實(shí)現(xiàn)個(gè)性化治療。

參考文獻(xiàn)

Su, M., Pan, T., Chen, QZ. et al. Data analysis guidelines for single-cell RNA-seq in biomedical studies and clinical applications. Military Med Res 9, 68 (2022). https://doi.org/10.1186/s40779-022-00434-8

原文詳見(jiàn):

https://mmrjournal.biomedcentral.com/articles/10.1186/s40779-022-00434-8

生活很好,有你更好,抄襲者可恥

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容