亚洲午夜久久久影院,亚洲av色在线

作者，Evil Genius

時(shí)光飛逝，且行且珍惜。

單細(xì)胞RNA測(cè)序(scRNA-seq)在生物醫(yī)學(xué)研究中的應(yīng)用，提高了對(duì)疾病發(fā)病機(jī)制的認(rèn)識(shí)，并為新的診斷和治療策略提供了有價(jià)值的見(jiàn)解。隨著包括臨床樣本在內(nèi)的高通量scRNA-seq數(shù)據(jù)的擴(kuò)大，對(duì)這些大量數(shù)據(jù)的分析已經(jīng)成為進(jìn)入這一領(lǐng)域的研究人員的一個(gè)必須面對(duì)的前景。在這里，回顧了典型scRNA-seq數(shù)據(jù)分析的工作流程，包括原始數(shù)據(jù)處理和質(zhì)量控制，適用于幾乎所有scRNA-seq數(shù)據(jù)集的基本數(shù)據(jù)分析，以及應(yīng)針對(duì)特定科學(xué)問(wèn)題量身定制的高級(jí)數(shù)據(jù)分析。在總結(jié)每個(gè)分析步驟的當(dāng)前方法的同時(shí)，還提供了軟件和腳本的在線數(shù)據(jù)。對(duì)一些具體的分析任務(wù)和方法提出了建議和注意事項(xiàng)。

Background

復(fù)雜組織由各種各樣的細(xì)胞類型組成，這些細(xì)胞類型以各種各樣的混合狀態(tài)出現(xiàn)。每個(gè)細(xì)胞所包含的功能基因組信息往往與鄰近的細(xì)胞群甚至同一類型的細(xì)胞有很大的不同。這意味著對(duì)塊狀組織中細(xì)胞群的分子分析本質(zhì)上是不可靠和不敏感的。在單細(xì)胞分辨率下量化分子變化所能達(dá)到的敏感性和特異性，為揭示疾病發(fā)病機(jī)制和進(jìn)展背后的分子機(jī)制帶來(lái)了前所未有的機(jī)遇。自成立以來(lái)，單細(xì)胞rna測(cè)序(scRNA-seq)已被證明是一個(gè)強(qiáng)大的工具，用于分析單個(gè)細(xì)胞的基因表達(dá)，在生理和發(fā)病機(jī)制。例如，通過(guò)在癌癥生物學(xué)中使用scRNA-seq，研究人員已經(jīng)能夠確定各種腫瘤類型中癌細(xì)胞的起源。此外，從治療和預(yù)后方面，發(fā)現(xiàn)了具有臨床顯著特征的惡性細(xì)胞亞群，如具有上皮-免疫雙重特征的鼻咽癌預(yù)后較差。同樣，在轉(zhuǎn)移性乳腺癌細(xì)胞中觀察到強(qiáng)烈的上皮-間充質(zhì)轉(zhuǎn)化(EMT)和干性特征。在scRNA-seq的輔助下，還可以對(duì)類器官系統(tǒng)的質(zhì)量和有效性進(jìn)行準(zhǔn)確評(píng)估和系統(tǒng)評(píng)估。患者來(lái)源的類器官模型目前正被應(yīng)用于疾病病理解剖和促進(jìn)個(gè)性化治療的藥物篩選。此外，通過(guò)聯(lián)合應(yīng)用患者來(lái)源的類器官和scRNA-seq，發(fā)現(xiàn)了腫瘤進(jìn)展過(guò)程中不同的細(xì)胞狀態(tài)，并鑒定了耐藥細(xì)胞亞群。在當(dāng)前的2019冠狀病毒病(COVID-19)大流行中，scRNA-seq加速了表征分子基礎(chǔ)的研究，從而理解了嚴(yán)重急性呼吸綜合征冠狀病毒 (SARS-CoV-2)的病理。多種基于scrna -seq的研究揭示了新型冠狀病毒的靶向細(xì)胞亞型，分析了感染后免疫細(xì)胞的基因表達(dá)變化，量化了不同類型細(xì)胞間相互作用的改變，為開發(fā)新型冠狀病毒的潛在治療方法提供了重要資源。

自從商業(yè)單細(xì)胞平臺(tái)(包括10 × genomics和Singleron提供的平臺(tái))出現(xiàn)以來(lái)，由研究機(jī)構(gòu)或第三方公司的核心設(shè)施提供的scRNA-seq服務(wù)正在使該技術(shù)更容易獲得，價(jià)格也更易接受，并在某些情況下成為生物醫(yī)學(xué)研究人員和臨床醫(yī)生的常規(guī)技術(shù)。雖然這些服務(wù)提供商通常執(zhí)行數(shù)據(jù)質(zhì)量控制并執(zhí)行數(shù)據(jù)處理的基本pipeline，但通常無(wú)法提供特定研究目標(biāo)和科學(xué)問(wèn)題所需的高級(jí)數(shù)據(jù)分析。因此，大多數(shù)生物醫(yī)學(xué)研究人員需要通過(guò)確定最合適的計(jì)算工具來(lái)解剖他們的數(shù)據(jù)，來(lái)掌握scRNA-seq數(shù)據(jù)分析的全部范圍。

為了克服scRNA-seq數(shù)據(jù)分析的障礙，特別是在生物醫(yī)學(xué)研究中，本文旨在:1)總結(jié)生物醫(yī)學(xué)scRNA-seq數(shù)據(jù)分析中每個(gè)分析任務(wù)的算法開發(fā)和基準(zhǔn)測(cè)試結(jié)果的最新進(jìn)展;2)介紹由更適合生物醫(yī)學(xué)應(yīng)用的推薦軟件工具組成的工作流程。工作流程包括基本的scRNA-seq數(shù)據(jù)處理、質(zhì)量控制(QC)、特征選擇、降維、細(xì)胞聚類和注釋、軌跡推斷、細(xì)胞-細(xì)胞通訊(CCC)、轉(zhuǎn)錄因子(TF)活性預(yù)測(cè)和代謝分析。

R版本
quality control: DoubletFinder, Seurat
integration: Seurat CCA, Seurat RPCA, Liger and Harmony
reduction and clustering: Seurat
cell annotation: singleR，scCATCH, CellMarker
trajectory prediction: Monocle3
cell communication: CellChat
metabolic flux: scMetabolism

python版本
rawdata analysis: cellranger
quality control, reduction and cluster: scanpy
regulon analysis: pySCENIC
trajectory prediction: scVelo
metabolic analysis: scFEA

General tasks of single?cell RNA?seq data analysis

scRNA-seq的典型數(shù)據(jù)分析步驟一般可以分為三個(gè)階段:原始數(shù)據(jù)處理和QC，適用于幾乎所有scRNAseq數(shù)據(jù)集的基礎(chǔ)數(shù)據(jù)分析，以及針對(duì)特定研究場(chǎng)景量身定制的高級(jí)數(shù)據(jù)分析。而基本的數(shù)據(jù)分析步驟包括數(shù)據(jù)歸一化與整合、特征選擇、降維、細(xì)胞聚類、細(xì)胞類型標(biāo)注和標(biāo)記基因鑒定。高級(jí)數(shù)據(jù)分析任務(wù)包括軌跡推斷、CCC分析、軌跡推斷和TF活性預(yù)測(cè)、代謝通量估計(jì)。

Experimental design

ScRNA-seq實(shí)驗(yàn)需要精心設(shè)計(jì)，以優(yōu)化解決科學(xué)問(wèn)題的能力。在開始數(shù)據(jù)分析之前，需要收集以下與實(shí)驗(yàn)設(shè)計(jì)相關(guān)的信息。(1)物種：對(duì)于生物醫(yī)學(xué)研究和臨床應(yīng)用，通常收集來(lái)自患者的人體樣本進(jìn)行測(cè)序。在某些情況下，為了研究潛在的分子機(jī)制，也使用了小鼠和其他模式生物。由于人類與其他物種的基因名稱和相關(guān)數(shù)據(jù)資源是不同的，因此在進(jìn)行數(shù)據(jù)分析時(shí)，確定物種是很重要的。為簡(jiǎn)單起見(jiàn)，將重點(diǎn)介紹來(lái)自人類樣本的數(shù)據(jù)。(2)樣品來(lái)源：根據(jù)科學(xué)問(wèn)題和樣本可及性的不同，不同的研究可以選擇不同的樣本類型。例如，為了研究肝細(xì)胞癌等實(shí)體腫瘤，從患者身上收集腫瘤活檢和腫瘤周圍樣本進(jìn)行病例對(duì)照設(shè)計(jì)。盡管上述設(shè)計(jì)在一定程度上是可行的，但外周血單個(gè)核細(xì)胞(pmcs)更容易獲得并廣泛用于scRNA-seq。此外，來(lái)自患者來(lái)源的類器官的細(xì)胞通常用于研究個(gè)人遺傳變異對(duì)特定器官發(fā)育的影響，這也可能是特定疾病的起源。了解樣本來(lái)源有助于特定的分析，例如細(xì)胞聚類和細(xì)胞類型注釋。(3)實(shí)驗(yàn)設(shè)計(jì)：為了研究疾病的發(fā)病機(jī)制和特定治療的有效性，通常采用病例對(duì)照設(shè)計(jì)，如腫瘤與腫瘤周圍設(shè)計(jì)。對(duì)于COVID-19等疾病，無(wú)法從同一患者身上獲得正常樣本，因此以年齡和性別匹配的健康人群作為對(duì)照組。為了控制患者和對(duì)照組之間可能的協(xié)變量，需要仔細(xì)考慮每組的個(gè)體數(shù)量。在(前瞻性)隊(duì)列研究中，樣本量通常相當(dāng)大，因此scRNA-seq不能應(yīng)用于來(lái)自個(gè)體捐贈(zèng)者的每個(gè)樣本;在這種情況下，通常采用嵌套病例-對(duì)照研究和樣本復(fù)用。一般情況下，數(shù)據(jù)分析策略需要根據(jù)實(shí)驗(yàn)設(shè)計(jì)的類型進(jìn)行調(diào)整。

Raw data processing

原始數(shù)據(jù)處理步驟包括:sequencing read QC, read mapping, cell demultiplexing and cell-wise unique molecular identifier (UMI)-count table generation。而標(biāo)準(zhǔn)化的數(shù)據(jù)處理pipeline提供了scRNA-seq平臺(tái)的發(fā)布，如Cell Ranger for 10 × Genomics Chromium和CeleScope (https://github.com/singleron-RD/CeleScope）。對(duì)于Singleron的系統(tǒng)，替代工具包括umi -tools, scPipe, zUMIs, celseq2, kallisto bustools和scruff也可以用于此過(guò)程。根據(jù)最近一項(xiàng)對(duì)scRNA-seq分析進(jìn)行基準(zhǔn)測(cè)試的研究，這些pipeline之間的選擇似乎沒(méi)有下游步驟重要。在任何情況下，都不建議在個(gè)人電腦上處理原始數(shù)據(jù)，因?yàn)檫@些pipeline需要大量的計(jì)算資源，并且針對(duì)高性能計(jì)算架構(gòu)進(jìn)行了優(yōu)化。第三方公司通常提供處理過(guò)的數(shù)據(jù)，包括UMI計(jì)數(shù)矩陣和QC指標(biāo)，使研究人員能夠?qū)Ｗ⒂诮鉀Q科學(xué)問(wèn)題的下游數(shù)據(jù)分析。

QC and doublet removal

細(xì)胞QC的目的是確保所有被分析的“細(xì)胞”都是單個(gè)且完整的細(xì)胞。損壞的細(xì)胞，死亡的細(xì)胞，受壓的細(xì)胞和雙細(xì)胞需要丟棄。細(xì)胞QC最常用的三個(gè)指標(biāo)是:UMI總計(jì)數(shù)(即計(jì)數(shù)深度)，檢測(cè)到的基因數(shù)量，以及每個(gè)細(xì)胞條形碼中線粒體計(jì)數(shù)的比例。Cell Ranger和CeleScope通常執(zhí)行第一輪細(xì)胞QC，通過(guò)檢查scRNA-seq文庫(kù)中計(jì)數(shù)深度的分布，將潛在的真實(shí)細(xì)胞與背景細(xì)胞條形碼區(qū)分開來(lái)。需要注意的是，當(dāng)損壞的細(xì)胞或細(xì)胞碎片在文庫(kù)中占相當(dāng)大的比例時(shí)，有效細(xì)胞的最小計(jì)數(shù)深度的閾值很難確定?？赡艿慕鉀Q方案包括同時(shí)考慮多個(gè)QC指標(biāo)，以及應(yīng)用更復(fù)雜的方法來(lái)排除背景和低質(zhì)量細(xì)胞。通常情況下，低數(shù)量的檢測(cè)基因和低計(jì)數(shù)深度表明細(xì)胞受損，而高比例的線粒體來(lái)源計(jì)數(shù)表明細(xì)胞死亡。相比之下，檢測(cè)到太多的基因和高計(jì)數(shù)深度可以表明雙基因。雖然像Seurat和Scater這樣的R包實(shí)現(xiàn)了促進(jìn)細(xì)胞QC的功能，但QC指標(biāo)的閾值在很大程度上取決于所研究的組織、細(xì)胞解離協(xié)議、庫(kù)制備方案等。參考具有相似實(shí)驗(yàn)設(shè)計(jì)的文獻(xiàn)將有助于確定閾值，高級(jí)研究人員也可以檢查QC指標(biāo)的聯(lián)合分布。值得注意的是，編碼核糖體蛋白的基因的累積表達(dá)并不是一個(gè)典型的QC指標(biāo)，因?yàn)楹颂求w蛋白表達(dá)的變化在生物學(xué)上是有意義的。
此外，在QC步驟中需要考慮和控制各種污染源。例如，來(lái)自pbmc和固體組織的文庫(kù)可能被紅細(xì)胞污染，因此表達(dá)高水平血紅蛋白基因的細(xì)胞(如HBB)通常被丟棄。另一種污染來(lái)源是無(wú)細(xì)胞或環(huán)境RNA，這可以從高通量scRNA-seq中無(wú)細(xì)胞液滴或孔中的特定基因的讀取中得到證明。估計(jì)和清除這種污染的方法和工具最近已經(jīng)開發(fā)出來(lái)，包括SoupX, DecontX，環(huán)境RNA的快速校正(FastCAR)和CellBender。去除單細(xì)胞基因表達(dá)中環(huán)境RNA引起的背景信號(hào)可以改善下游分析和生物學(xué)解釋。

在高通量scRNA-seq實(shí)驗(yàn)中，觀察到高比率的雙細(xì)胞并不罕見(jiàn)，其可達(dá)細(xì)胞條形碼的40%。因此，僅考慮計(jì)數(shù)深度和檢測(cè)基因數(shù)量的過(guò)濾步驟是不夠的，特別是當(dāng)細(xì)胞類型組成復(fù)雜時(shí)，單細(xì)胞的計(jì)數(shù)深度分布與雙細(xì)胞的計(jì)數(shù)深度分布沒(méi)有區(qū)別。由不同細(xì)胞類型組成的雙細(xì)胞可能會(huì)混淆下游分析，特別是在細(xì)胞聚類、差異表達(dá)分析和軌跡推斷中。幸運(yùn)的是，已經(jīng)開發(fā)了許多復(fù)雜的方法來(lái)解開這些混雜的信號(hào)。這些方法考慮單個(gè)細(xì)胞條形碼的基因表達(dá)譜，并報(bào)告雙細(xì)胞分?jǐn)?shù)作為指標(biāo)。雙細(xì)胞評(píng)分的計(jì)算基于人工雙細(xì)胞[如單細(xì)胞去除雙細(xì)胞(Scrublet)， doubletCells，基于二元分類的雙細(xì)胞評(píng)分(bcds)， DoubletDetection, DoubletFinder, Solo, DoubletDecon]或基因共表達(dá)[如基于共表達(dá)的雙細(xì)胞評(píng)分(cxds)。在最近的一項(xiàng)研究中，使用一組綜合的合成和真實(shí)數(shù)據(jù)對(duì)現(xiàn)有的計(jì)算雙檢測(cè)方法進(jìn)行了基準(zhǔn)測(cè)試，推薦使用Doubletfinder工具，因?yàn)樗谙掠畏治鲋袑?shí)現(xiàn)了最高的檢測(cè)精度和最佳的性能。

Expression normalization

每個(gè)細(xì)胞總UMI計(jì)數(shù)的可變性取決于技術(shù)和生物學(xué)參數(shù)的范圍。技術(shù)因素與RNA捕獲效率、逆轉(zhuǎn)錄、cDNA擴(kuò)增和測(cè)序深度有關(guān)，而生物學(xué)因素主要與細(xì)胞大小和細(xì)胞周期階段有關(guān)。由于這種變異，除非在測(cè)序文庫(kù)中添加外部的spike-in RNA對(duì)照，否則幾乎不可能獲得RNA分子的絕對(duì)數(shù)量。與bulk RNA-seq一樣，相對(duì)RNA豐度通常用于比較單個(gè)細(xì)胞之間的基因表達(dá)譜;因此，scRNA-seq數(shù)據(jù)通常采用global-scaling方法進(jìn)行歸一化，其中scaling factors是為bulk RNA-seq開發(fā)的，這部分抑制了技術(shù)效應(yīng)。Popular global-scaling methods for bulk RNA-seq include transcript per million (TPM), upper quartile (UQ) normalization, trimmed mean of M values (TMM) normalization, and the DESeq normalization method，然而，由于通過(guò)零膨脹的扭曲趨勢(shì)，不適用于scRNA-seq。為scRNA-seq量身定制的歸一化方法，包括單細(xì)胞差異表達(dá)(SCDE)和基于模型的單細(xì)胞轉(zhuǎn)錄組學(xué)分析(MAST)，可以具體模擬scRNA-seq數(shù)據(jù)差異表達(dá)分析中的缺失事件。另一種方法，Scran，通過(guò)匯集相似基因表達(dá)譜的細(xì)胞，克服了縮放因子估計(jì)的問(wèn)題(受太多零計(jì)數(shù)的影響)。Scran的池化策略在縮放因子估計(jì)方面優(yōu)于比較工具，TPM-/count深度縮放方法在實(shí)踐中得到廣泛應(yīng)用。
在基于縮放因子的歸一化之后，通常將結(jié)果值添加到一個(gè)偽計(jì)數(shù)并進(jìn)行對(duì)數(shù)轉(zhuǎn)換。這一步實(shí)際上是有用的，在統(tǒng)計(jì)上是合理的，因?yàn)樗鼫p輕了scRNA-seq計(jì)數(shù)數(shù)據(jù)中的均值-方差關(guān)系，也減少了表達(dá)數(shù)據(jù)中的偏態(tài)。為了更好地穩(wěn)定方差，SCTransform(由Seurat團(tuán)隊(duì)開發(fā))，它應(yīng)用正則化負(fù)二項(xiàng)式回歸進(jìn)行scRNA-seq數(shù)據(jù)歸一化和方差穩(wěn)定性。
一些已知的生物效應(yīng)，如細(xì)胞周期和細(xì)胞應(yīng)激(以線粒體基因的過(guò)度表達(dá)為特征)，可能會(huì)阻礙對(duì)特定生物信號(hào)的表征。因此，對(duì)已知生物學(xué)的表達(dá)譜進(jìn)行規(guī)范化或校正可能有助于解釋數(shù)據(jù)。例如，糾正細(xì)胞周期的影響可以改善發(fā)育軌跡的重建。計(jì)算生物效應(yīng)的程序可以通過(guò)對(duì)相關(guān)生物學(xué)特征(例如，細(xì)胞周期分?jǐn)?shù))進(jìn)行評(píng)分來(lái)實(shí)現(xiàn)，然后對(duì)Seurat中實(shí)現(xiàn)的計(jì)算分?jǐn)?shù)進(jìn)行簡(jiǎn)單的線性回歸。此外，單細(xì)胞潛在變量模型(scLVM)/階乘單細(xì)胞潛在變量模型(f-scLVM)和細(xì)胞生長(zhǎng)校正(cgCorrect)等專用工具也可用于此目的。值得注意的是，糾正一種特定分析的生物效應(yīng)(例如，細(xì)胞分化)可能會(huì)無(wú)意中阻礙另一種分析的信號(hào)(例如，細(xì)胞增殖);在為特定的分析任務(wù)選擇數(shù)據(jù)規(guī)范化策略時(shí)應(yīng)該謹(jǐn)慎。

Data integration

正如在“實(shí)驗(yàn)設(shè)計(jì)”中提到的，生物醫(yī)學(xué)研究通常會(huì)進(jìn)行病例與對(duì)照組的比較。通常，從不同醫(yī)療中心或醫(yī)院獲得的批次樣品應(yīng)該在下游分析之前進(jìn)行整合。對(duì)于使用患者來(lái)源的類器官的研究，數(shù)據(jù)集成也適用于在不同時(shí)間點(diǎn)收獲的細(xì)胞，以描述類器官的發(fā)育。在這些情況下，另一個(gè)不必要的技術(shù)因素，批次效應(yīng)，是無(wú)法避免的，因?yàn)榧?xì)胞和文庫(kù)制備是由不同的人，在不同的時(shí)間點(diǎn)，或用不同批次的試劑處理的。在scRNA-seq中，批效應(yīng)可能是非線性的，這可能不容易被最先進(jìn)的批校正工具(如ComBat)解開。因此，最近在scRNA-seq數(shù)據(jù)集成中開發(fā)了許多批效應(yīng)校正方法，試圖在保留生物變異的同時(shí)減輕或消除批特定偏差造成的影響。批量效應(yīng)校正方法可分為以下幾類:1)用于bulk表達(dá)分析的工具，包括ComBat和limma;2)基于高維基因表達(dá)空間及其子空間中相互近鄰(MNN)的方法，如mnnCorrect、fastMNN、Scanorama和批量平衡k近鄰(BBKNN);3)嘗試在降維空間中以相關(guān)/共享特征對(duì)齊細(xì)胞的方法，包括典型相關(guān)分析(CCA)、Harmony和基因組實(shí)驗(yàn)關(guān)系的關(guān)聯(lián)推斷(LIGER);4)基于深度生成模型的方法，如scGen。此外，根據(jù)整合錨點(diǎn)的選擇，算法還可以分為不同的類型，例如以基因組特征為錨點(diǎn)，以細(xì)胞為錨點(diǎn)。

文章A benchmark of batch-effect correction methods for single-cell RNA sequencing data比較了當(dāng)時(shí)在5種不同集成場(chǎng)景下的10個(gè)數(shù)據(jù)集上可用的14種批量效應(yīng)校正方法。其中，根據(jù)Seurat 3中實(shí)現(xiàn)的Harmony、LIGER和CCA的整體性能，推薦使用。結(jié)合項(xiàng)目經(jīng)驗(yàn)，建議依次使用Harmony、Seurat3/4-CCA、LIGER進(jìn)行數(shù)據(jù)集成。這是因?yàn)樵谔幚聿煌臄?shù)據(jù)集時(shí)，這三種策略中沒(méi)有明顯的優(yōu)劣之分。Harmony比其他工具運(yùn)行得更快，適合初始探索;Seurat3/4-CCA在不同批次的細(xì)胞混合中是適度的，而LIGER在批量混合中做出了最大的努力，有時(shí)以細(xì)胞類型純度為代價(jià)。值得注意的是，如果有人想評(píng)估批效應(yīng)校正的有效性或評(píng)估數(shù)據(jù)中的批效應(yīng)的程度，可以通過(guò)比較基于批效應(yīng)校正分析的聚類或可視化結(jié)果，以及通過(guò)直接合并來(lái)自多個(gè)樣本的細(xì)胞(例如Seurat中的合并函數(shù))，并通過(guò)計(jì)算測(cè)試指標(biāo)，如k-最近鄰批效應(yīng)檢驗(yàn)(kBET)來(lái)實(shí)現(xiàn)。

Feature selection

當(dāng)細(xì)胞QC去除背景細(xì)胞和有問(wèn)題的細(xì)胞時(shí)，特征部分是關(guān)于基因的。在人類基因組中，有超過(guò)20,000個(gè)基因被注釋，并對(duì)單個(gè)基因位點(diǎn)的mapping讀數(shù)進(jìn)行計(jì)數(shù)，以產(chǎn)生UMI計(jì)數(shù)矩陣。然而，并不是所有的> 20,000個(gè)基因都能在表征細(xì)胞間異質(zhì)性或區(qū)分細(xì)胞類型/狀態(tài)方面提供信息。因此，“特征選擇”一詞是從統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域借來(lái)的，用來(lái)描述為下游分析選擇具有生物學(xué)信息的基因的過(guò)程。這一過(guò)程通常是無(wú)監(jiān)督的，這意味著不需要與細(xì)胞類型或其他感興趣的生物過(guò)程相關(guān)的信息。
考慮到scRNAseq數(shù)據(jù)中相對(duì)較高的噪聲水平，特征選擇通常識(shí)別出生物變異性比技術(shù)噪聲更強(qiáng)的基因。由于技術(shù)噪聲很大程度上依賴于基因的平均表達(dá)，高變基因(hvg)最初是通過(guò)檢查變異系數(shù)和表達(dá)均值之間的關(guān)系來(lái)識(shí)別的。由于其在降低技術(shù)噪聲和緩解下游分析中的計(jì)算需求方面的有用性，例如細(xì)胞聚類和可視化的降維，許多其他用于HVG識(shí)別的工具被開發(fā)出來(lái)并進(jìn)行了比較評(píng)估。替代的特征選擇方法不是識(shí)別hvg，而是考慮退出并優(yōu)先考慮觀察到的零數(shù)量高于預(yù)期的基因。
從理論上講，選擇用于下游分析的基因數(shù)量取決于所研究樣本中細(xì)胞組成的復(fù)雜性。雖然用于HVG識(shí)別的方法可以確定給定顯著性水平上的HVG數(shù)量，但識(shí)別固定數(shù)量的HVG正變得流行，通常HVG數(shù)量在1000到5000之間。研究表明，下游分析對(duì)hvg的確切數(shù)量不敏感。值得注意的是，一些不利的協(xié)變量，如批效應(yīng)，可能會(huì)扭曲HVG識(shí)別。因此，應(yīng)在校正協(xié)變量后進(jìn)行HVG選擇。在存在批效應(yīng)的情況下，特征選擇也可以在數(shù)據(jù)整合之前對(duì)單個(gè)樣本進(jìn)行。

Dimensionality reduction and visualization

在選擇1000-5000個(gè)hvg的情況下，表達(dá)式數(shù)據(jù)的維數(shù)仍然很高，從而阻礙了對(duì)數(shù)據(jù)集的人工檢查，如可視化、聚類和細(xì)胞類型注釋。為此，可以通過(guò)降維技術(shù)進(jìn)一步降低表達(dá)矩陣的維度，將細(xì)胞從高維空間投射到低維嵌入空間，并保留細(xì)胞間變異的生物學(xué)信息。常用的降維方法有主成分分析(PCA)、非負(fù)矩陣分解(NMF)、多維標(biāo)度(MDS)、t分布隨機(jī)鄰居嵌入(t-SNE)和均勻流形近似投影(UMAP)等。

PCA是一種通用的降維降噪技術(shù)，在scRNAseq數(shù)據(jù)分析中得到了廣泛應(yīng)用。通過(guò)將原始表達(dá)式矩陣線性投影到其子空間，主成分分析按照重要程度的順序給出主成分(PCs)。雖然前兩到三維pc可以用于可視化，但通常保留更多的pc用于下游分析，如細(xì)胞聚類和軌跡推斷。保留的pc數(shù)量很大程度上取決于數(shù)據(jù)集的復(fù)雜性，可以通過(guò)“elbow”方法或基于jackstraw排列測(cè)試的方法確定。然而，PCA在分析中不能考慮dropout事件，這導(dǎo)致了一些新的方法的發(fā)展。零膨脹因子分析(zero - inflation factor analysis, ZIFA)是其中一種基于因子分析的方法，該方法能清晰地模擬失學(xué)率特征，并優(yōu)于比較方法。與PCA相似，NMF是一種線性投影降維方法，在基于scRNA-seq的細(xì)胞聚類中表現(xiàn)出了穩(wěn)健的性能。

對(duì)于可視化，非線性降維方法更適合，它允許在二維/三維空間中進(jìn)行全局非線性嵌入。MDS是一種非線性降維方法，它保留了原始空間中細(xì)胞間的距離。然而，MDS不能擴(kuò)展到大規(guī)模的scRNA-seq數(shù)據(jù)，因?yàn)楫?dāng)細(xì)胞數(shù)很大時(shí)，計(jì)算成對(duì)距離變得困難。越來(lái)越多的證據(jù)表明t-SNE和UMAP更適合用于scRNA-seq數(shù)據(jù)，scRNA-seq數(shù)據(jù)已廣泛應(yīng)用于單細(xì)胞分析，用于數(shù)據(jù)可視化和細(xì)胞群識(shí)別。然而，t-SNE通常存在一些局限性，例如對(duì)于大規(guī)模scRNA-seq數(shù)據(jù)集的計(jì)算時(shí)間較慢，并且沒(méi)有保留全局?jǐn)?shù)據(jù)結(jié)構(gòu)。UMAP具有上述兩方面的優(yōu)勢(shì)，成為目前最受歡迎的降維選擇。UMAP不僅有助于可視化細(xì)胞類群，還有助于注釋細(xì)胞類群。然而，值得注意的是，雖然UMAP在保存全局?jǐn)?shù)據(jù)結(jié)構(gòu)和捕獲局部相似性之間取得了平衡，但結(jié)果空間中的細(xì)胞之間的距離并沒(méi)有被保留。因此，像聚類和偽時(shí)間推斷這樣的下游分析通常是基于幾個(gè)到幾十個(gè)pc的PCA結(jié)果執(zhí)行的。

Identification of cell subpopulations

單細(xì)胞轉(zhuǎn)錄組學(xué)的關(guān)鍵應(yīng)用之一是基于細(xì)胞聚類或分類來(lái)確定細(xì)胞亞群。由于scRNA-seq數(shù)據(jù)中存在高水平的噪聲，對(duì)scRNA-seq矩陣數(shù)據(jù)應(yīng)用降維方法可能有助于細(xì)胞聚類。雖然PCA通常用于bulk RNA-seq，但細(xì)胞亞群之間基因表達(dá)的真正生物學(xué)變異性可能不容易通過(guò)少量的pc來(lái)區(qū)分。為了更好地解釋這種變化，NMF被用于在單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)中分離亞群，并已被證明優(yōu)于PCA，具有更高的準(zhǔn)確性和穩(wěn)健性。同樣，SinNLRR被開發(fā)用于通過(guò)非負(fù)和低秩表示提供基因表達(dá)子空間的穩(wěn)健聚類。

最先進(jìn)的聚類方法，如k-means算法，也已應(yīng)用于scRNAseq數(shù)據(jù)集，并基于此應(yīng)用開發(fā)了單細(xì)胞共識(shí)聚類(SC3)方法。scRNA-seq中另一類常用的細(xì)胞聚類方法是基于細(xì)胞最近鄰網(wǎng)絡(luò)的社區(qū)檢測(cè)方法，該方法在Seurat R包中被采用和實(shí)現(xiàn)。此外，還開發(fā)了多種細(xì)胞聚類方法。例如，BackSPIN利用了雙聚類技術(shù)來(lái)避免層次聚類中不利的成對(duì)比較，通過(guò)多核學(xué)習(xí)的單細(xì)胞解釋(SIMLR)基于多核學(xué)習(xí)，通過(guò)imputation和降維聚類(CIDR)利用imputation來(lái)減輕scRNA-seq中退出的影響，通過(guò)混合模型的單細(xì)胞聚合聚類集成聚類(SAME-clustering)集成聚類由多種方法產(chǎn)生。然而，兩項(xiàng)獨(dú)立的基準(zhǔn)測(cè)試研究表明，SC3和Seurat中的聚類方法表現(xiàn)相似，并且優(yōu)于所有其他比較方法。

相似度或距離度量對(duì)于scRNA-seq中的聚類細(xì)胞至關(guān)重要，這可以特定于實(shí)驗(yàn)平臺(tái)或特定樣本。研究表明，與無(wú)監(jiān)督聚類方法相比，用于細(xì)胞類型識(shí)別的監(jiān)督方法較少受到批效應(yīng)、細(xì)胞類型數(shù)量和細(xì)胞群體組成不平衡的影響。在機(jī)制上，監(jiān)督方法依賴于一個(gè)全面的參考數(shù)據(jù)庫(kù)，已知的細(xì)胞類型注釋，在此基礎(chǔ)上訓(xùn)練分類模型來(lái)預(yù)測(cè)未注釋數(shù)據(jù)集中的細(xì)胞類型。CellAssign、scmap、單細(xì)胞識(shí)別(SingleR)、分級(jí)分類輔助的細(xì)胞類型表征(CHETAH)和SingleCellNet是該類方法。盡管監(jiān)督方法具有明顯的優(yōu)勢(shì)，但非監(jiān)督方法通常更擅長(zhǎng)識(shí)別未知細(xì)胞類型，具有更高的計(jì)算效率。因此，在Seurat中實(shí)現(xiàn)的聚類方法綜合性能最好，建議作為細(xì)胞類型識(shí)別的首選方法。

單細(xì)胞聚類分析的另一個(gè)重要問(wèn)題是罕見(jiàn)細(xì)胞類型的檢測(cè)，這些細(xì)胞類型在復(fù)雜疾病中發(fā)揮重要作用，但豐度較低。RaceID, GiniClust, sincerely和dendrisplit是專為在scRNA-seq數(shù)據(jù)分析中識(shí)別罕見(jiàn)細(xì)胞類型而設(shè)計(jì)的聚類算法。

Cell type annotation

為細(xì)胞亞群分配細(xì)胞身份(稱為細(xì)胞類型注釋)是scRNA-seq數(shù)據(jù)分析的關(guān)鍵步驟。手動(dòng)注釋細(xì)胞類型非常耗時(shí)，而且可能是主觀的。因此，新興的計(jì)算工具已經(jīng)開發(fā)用于自動(dòng)細(xì)胞類型注釋。這些計(jì)算方法通常可以分為三大類。

第一種類型是基于標(biāo)記基因的，它依賴于公共數(shù)據(jù)庫(kù)或文獻(xiàn)中細(xì)胞類型特異性標(biāo)記的可用性。CellMarker和PanglaoDB是常用的在線資源，存儲(chǔ)了人類和小鼠組織中各種細(xì)胞類型的標(biāo)記。CellMarker通過(guò)手動(dòng)管理超過(guò)10萬(wàn)篇發(fā)表的論文，保存了大約500種人類細(xì)胞類型的13000多個(gè)細(xì)胞標(biāo)記，PanglaoDB是一個(gè)細(xì)胞標(biāo)記概要，包含來(lái)自1000多個(gè)scRNA-seq實(shí)驗(yàn)的6000個(gè)不同細(xì)胞類型的標(biāo)記。此外，開發(fā)了TF-Marker數(shù)據(jù)庫(kù)，為人類提供細(xì)胞或組織特異性tf和相關(guān)標(biāo)記。這些數(shù)據(jù)庫(kù)是細(xì)胞類型注釋的寶貴資源。與此同時(shí)，已經(jīng)開發(fā)了許多使用標(biāo)記基因進(jìn)行細(xì)胞類型注釋的工具，如ScType、scSorter、半監(jiān)督類別識(shí)別和分配(SCINA)、基于單細(xì)胞集群的細(xì)胞異質(zhì)性自動(dòng)注釋工具包(scCATCH)和CellAssign。其中一些方法應(yīng)用復(fù)雜的統(tǒng)計(jì)模型來(lái)利用標(biāo)記基因的先驗(yàn)知識(shí)。例如，SCINA建立了一個(gè)半監(jiān)督模型，利用期望最大化(EM)算法利用先前識(shí)別的標(biāo)記基因，CellAssign利用概率圖形模型，根據(jù)細(xì)胞類型標(biāo)記基因的先驗(yàn)知識(shí)將細(xì)胞注釋為預(yù)定義的或新的細(xì)胞類型，同時(shí)考慮批次和樣本效應(yīng)。

第二種方法是基于參考轉(zhuǎn)錄組的，它使用細(xì)胞類型標(biāo)記的scRNA-seq數(shù)據(jù)集作為細(xì)胞類型注釋的輸入，通過(guò)搜索查詢數(shù)據(jù)與參考數(shù)據(jù)之間的最佳相關(guān)性。這組常用的工具包括CHETAH, scmap, scMatch和SingleR。CHETAH算法基于由已知細(xì)胞類型的引用概要文件構(gòu)建的分層樹，并通過(guò)從根節(jié)點(diǎn)到葉節(jié)點(diǎn)逐步遍歷樹來(lái)搜索細(xì)胞的最佳注釋?；?00個(gè)最具辨識(shí)性的基因，計(jì)算輸入細(xì)胞與所考慮的兩個(gè)樹枝的相關(guān)系數(shù)，計(jì)算出選擇樹枝繼續(xù)樹遍歷的剖面分?jǐn)?shù)和置信度分?jǐn)?shù)。SingleR方法將每個(gè)未注釋的單細(xì)胞轉(zhuǎn)錄組與參考數(shù)據(jù)中基于hvg的已知細(xì)胞類型的參考轉(zhuǎn)錄組相關(guān)聯(lián)。SingleR以迭代的方式分配細(xì)胞標(biāo)識(shí)，并且在每次迭代中縮減參考集以細(xì)化分配。值得注意的是，參考轉(zhuǎn)錄組數(shù)據(jù)的全面性對(duì)這組方法至關(guān)重要。常用的參考數(shù)據(jù)有Blueprint、Encode和Human Primary Cell Atlas。

最后，第三種利用基于監(jiān)督機(jī)器學(xué)習(xí)的方法，其中由標(biāo)記參考訓(xùn)練的分類器然后應(yīng)用于預(yù)測(cè)未注釋細(xì)胞的細(xì)胞類型。例如，SingleCellNet使用多類隨機(jī)森林分類器，使用神經(jīng)網(wǎng)絡(luò)的自動(dòng)細(xì)胞類型識(shí)別(ACTINN)使用人工神經(jīng)網(wǎng)絡(luò)，scPred使用支持向量機(jī)(SVM)， scclassification使用集成學(xué)習(xí)進(jìn)行細(xì)胞類型注釋。此外，ontology-based的單細(xì)胞分類(OnClass)還可以通過(guò)識(shí)別由細(xì)胞本體和未注釋的細(xì)胞產(chǎn)生的低維嵌入中最近的細(xì)胞類型，準(zhǔn)確地注釋訓(xùn)練數(shù)據(jù)集中沒(méi)有的細(xì)胞類型。

細(xì)胞類型注釋的自動(dòng)化方法已應(yīng)用于廣泛的生物醫(yī)學(xué)研究，包括癌癥研究。然而，最近的一項(xiàng)基準(zhǔn)研究表明，每種計(jì)算方法在不同的場(chǎng)景下都具有特定的優(yōu)勢(shì)，這使得臨床用戶很難選擇合適的工具。集成來(lái)自多個(gè)工具的注釋結(jié)果可能是上述問(wèn)題的解決方案，并可能實(shí)現(xiàn)更準(zhǔn)確的細(xì)胞類型注釋。因此，最近開發(fā)了用于免疫細(xì)胞聚類和注釋的ImmCluster，集成了7種基于參考和4種基于標(biāo)記基因的計(jì)算方法，并由手動(dòng)策劃的標(biāo)記基因集支持。比較研究表明，與單個(gè)方法相比，ImmCluster提供了更準(zhǔn)確和穩(wěn)定的細(xì)胞類型注釋。

Marker gene identification

特定細(xì)胞群或細(xì)胞類型的標(biāo)記基因是表征其功能的重要資源。反過(guò)來(lái)，如上所示，標(biāo)記基因也可以用于細(xì)胞類型注釋。識(shí)別細(xì)胞簇/類型特異性基因的典型方法是基于統(tǒng)計(jì)檢驗(yàn)在簇中識(shí)別差異表達(dá)基因(DEGs)。例如，scRNA-seq分析pipeline Seurat和sincerely使用非參數(shù)Wilcoxon 's秩和檢驗(yàn)來(lái)識(shí)別特定細(xì)胞類型的高表達(dá)基因。研究表明，Wilcoxon秩和檢驗(yàn)的假陽(yáng)性率低于基于測(cè)序的DEG分析的專用方法[例如，DESeq2和R (edgeR)中數(shù)字基因表達(dá)(DGE)的實(shí)證分析]。此外，SC3采用非參數(shù)Kruskal-Wallis檢驗(yàn)對(duì)兩組以上細(xì)胞進(jìn)行比較。考慮到scRNA-seq中的缺失以及細(xì)胞類型或狀態(tài)之間基因表達(dá)分布的差異，許多其他方法被開發(fā)用于標(biāo)記基因鑒定，如MAST, SCDE和DEsingle。

還有一類方法是在細(xì)胞聚類過(guò)程中同時(shí)識(shí)別細(xì)胞特異性基因，而不是在此之后再進(jìn)行一步。如前所述，BackSPIN是基于一種聚類方法，即在聚類細(xì)胞時(shí)將高表達(dá)基因聚在一起。同樣，迭代聚類和導(dǎo)向基因選擇(ICGS)首先通過(guò)表達(dá)基因的成對(duì)相關(guān)性來(lái)識(shí)別導(dǎo)向基因，然后對(duì)導(dǎo)向基因進(jìn)行迭代聚類。此外，DendroSplit在識(shí)別subcluster時(shí)考慮標(biāo)記基因的顯著性水平。最后，對(duì)單個(gè)細(xì)胞中基因表達(dá)的分布進(jìn)行統(tǒng)計(jì)建模，開發(fā)了scRNA-seq數(shù)據(jù)的方差驅(qū)動(dòng)多任務(wù)聚類(scVDMC)、BPSC和偏差校正測(cè)序分析(BCseq)等方法，以改進(jìn)細(xì)胞亞型鑒定和差異表達(dá)分析。

關(guān)于scRNA-seq中DEG工具的最佳選擇，最近的一項(xiàng)研究比較了36種方法，發(fā)現(xiàn)了所比較的方法之間的根本差異。有人指出，低表達(dá)基因的預(yù)過(guò)濾可能有助于DEG分析，用于bulk RNA-seq分析的方法通常與專門為scRNA-seq開發(fā)的方法具有相當(dāng)?shù)男阅?。總體而言，除復(fù)雜的實(shí)驗(yàn)設(shè)計(jì)外，非參數(shù)Wilcoxon’s秩和檢驗(yàn)在大多數(shù)應(yīng)用場(chǎng)景中排名較高。

Functional enrichment analysis

為了促進(jìn)在每種細(xì)胞類型中鑒定的標(biāo)記基因的解釋和組織，通常進(jìn)行功能富集分析。為bulk 轉(zhuǎn)錄組學(xué)開發(fā)的計(jì)算方法可以很容易地應(yīng)用于這種分析，例如用于注釋的數(shù)據(jù)庫(kù)、可視化和集成發(fā)現(xiàn)(DAVID)。這種分析需要一個(gè)統(tǒng)計(jì)顯著性的硬界限來(lái)定義標(biāo)記基因;相比之下，廣泛使用的基因集富集分析(GSEA)是一種無(wú)截?cái)嗟姆椒?。GSEA首先根據(jù)感興趣的細(xì)胞群之間的差異表達(dá)統(tǒng)計(jì)數(shù)據(jù)對(duì)基因進(jìn)行排序，然后統(tǒng)計(jì)評(píng)估一個(gè)功能有意義的基因集或途徑是否在排名列表的頂部或底部顯著過(guò)度代表。為了便于GSEA分析，分子特征數(shù)據(jù)庫(kù)(MSigDB)提供了一系列標(biāo)注的基因集，包括通路和標(biāo)記基因特征。

除了上述基于標(biāo)記基因或兩組細(xì)胞差異表達(dá)進(jìn)行功能標(biāo)注的情況外，富集分析還可以在單細(xì)胞水平上進(jìn)行。單樣本GSEA (ssGSEA)和基因集變異分析(GSVA)是GSEA的類似物，用于單個(gè)散裝樣品的富集分析，目前已廣泛用于scRNA-seq計(jì)算特征評(píng)分。此外，考慮到其在scRNA-seq中的特點(diǎn)，還提出了更具體的工具，包括Vision、Pagoda2、AUCell、單細(xì)胞簽名瀏覽器(SCSE)和聯(lián)合評(píng)估簽名均值和推斷富集(JASMINE)，總體上更適合用于scRNA-seq中的簽名評(píng)分。此外，這些特征評(píng)分方法也可用于通路活性推斷。

Trajectory inference and RNA velocity

除了scRNA-seq可以捕捉到的細(xì)胞間異質(zhì)性外，轉(zhuǎn)錄組的動(dòng)態(tài)也可能反映了發(fā)育軌跡或細(xì)胞狀態(tài)的轉(zhuǎn)變。軌跡推斷、偽時(shí)間估計(jì)和RNA速率建模都有助于揭示細(xì)胞分化或激活過(guò)程中的分子特征和調(diào)控機(jī)制。

軌跡推斷是過(guò)去幾年的一個(gè)熱門研究領(lǐng)域，開發(fā)了大約100個(gè)計(jì)算工具，促進(jìn)了發(fā)育生物學(xué)以及癌癥發(fā)展和免疫反應(yīng)狀態(tài)改變的研究。此外，應(yīng)用這類方法還可以促進(jìn)新細(xì)胞類型的客觀識(shí)別，以及在發(fā)育或狀態(tài)轉(zhuǎn)換過(guò)程中調(diào)節(jié)網(wǎng)絡(luò)的推斷。根據(jù)軌跡的類型，軌跡推斷方法也可以分為不同的類別，包括線性方法[如SCORPIUS，單細(xì)胞分析工具(TSCAN)， Wanderlust，分叉方法[如擴(kuò)散偽時(shí)間(DPT) ， Wishbone]，多分叉方法[如FateID, STEMNET，混合因子分析器(MFA)]，樹方法(如Slingshot, scTite, Monocle)，圖形方法[如基于分區(qū)的圖形抽象(PAGA)，稀有細(xì)胞類型鑒定(RaceID)，細(xì)胞表達(dá)關(guān)系的選擇性局部線性推斷(SLICER)]。目前，軌跡推斷方法日趨成熟，特別是線性和分叉方法。基于最近的基準(zhǔn)研究，給出了實(shí)際應(yīng)用的指導(dǎo)方針，以便生物醫(yī)學(xué)研究人員可以根據(jù)數(shù)據(jù)中預(yù)期拓?fù)涞南闰?yàn)知識(shí)選擇適當(dāng)?shù)姆椒?否則，建議使用PAGA、Monocle、RaceID和Slingshot進(jìn)行初步研究。

根據(jù)現(xiàn)有的生物學(xué)知識(shí)，在推斷發(fā)育或轉(zhuǎn)變軌跡的起點(diǎn)上，沿著軌跡的細(xì)胞可以以偽時(shí)間順序排列。如果軌跡中存在分叉、多分叉或樹形結(jié)構(gòu)，則應(yīng)采用多條路徑分別經(jīng)過(guò)樹枝。這樣，就很容易研究沿偽時(shí)間的基因表達(dá)動(dòng)態(tài)。建立了基于軌跡/偽時(shí)間的差異表達(dá)分析方法，揭示了譜系/狀態(tài)規(guī)范的動(dòng)態(tài)調(diào)控。

捕捉轉(zhuǎn)錄組動(dòng)態(tài)的另一種方法是使用RNA速率，這是基于同一細(xì)胞中成熟和未成熟轉(zhuǎn)錄本(即未剪接的內(nèi)含子)之間的關(guān)系。如果細(xì)胞中有相對(duì)較多的未剪接轉(zhuǎn)錄本，則該基因處于上調(diào)狀態(tài)，反之亦然。聯(lián)合量化成熟與未成熟轉(zhuǎn)錄物的比值，以及狀態(tài)變化過(guò)程中基因表達(dá)的變化，從而確定細(xì)胞轉(zhuǎn)化的方向。這一基本原理已在第一個(gè)RNA速率方法Velocyto中實(shí)現(xiàn)，并在后續(xù)方法scVelo中進(jìn)行了改進(jìn)，其中采用了likelihood-based的動(dòng)力學(xué)模型。此外，最近開發(fā)的方法將RNA速率與軌跡推斷相結(jié)合，從而實(shí)現(xiàn)獨(dú)立于先驗(yàn)知識(shí)的定向軌跡推斷。例如，CellRank利用了軌跡推斷的魯棒性和來(lái)自RNA速度的方向信息，能夠檢測(cè)以前未知的軌跡和細(xì)胞狀態(tài)。CellPath是另一種整合單細(xì)胞基因表達(dá)動(dòng)態(tài)和RNA速度信息進(jìn)行軌跡推斷的方法。

Cell–cell communications

CCC事件在機(jī)體的發(fā)育和穩(wěn)態(tài)、疾病的發(fā)生和發(fā)展中起著重要作用。例如，腫瘤微環(huán)境是由腫瘤細(xì)胞、基質(zhì)細(xì)胞和多種免疫細(xì)胞組成的復(fù)雜生態(tài)系統(tǒng)，這些細(xì)胞之間的通信異?；蛑袛嗫赡艽龠M(jìn)腫瘤生長(zhǎng)。為此，開發(fā)了各種計(jì)算工具來(lái)使用scRNA-seq數(shù)據(jù)推斷CCC。細(xì)胞間的通訊通常依賴于配體-受體(LR)的相互作用，這通常是量化LR共表達(dá)。

為了便于上述研究，已知的配體受體相互作用(LRIs)已被手動(dòng)整理并存入數(shù)據(jù)庫(kù)。到目前為止，LRI數(shù)據(jù)庫(kù)有相當(dāng)多，包括CellPhoneDB, ICELLNET, CellTalkDB, SingleCell - signaLR和Omnipath。最近更新的CellPhoneDB(版本4)包括近2000個(gè)配體和受體蛋白之間的高置信相互作用，以及異構(gòu)體蛋白復(fù)合物。CellTalkDB是另一個(gè)綜合性的人類和小鼠LRI數(shù)據(jù)庫(kù)，包括3398對(duì)人類LR對(duì)和2033對(duì)小鼠LR對(duì)。同時(shí)，scRNA-seq數(shù)據(jù)使用前面提到的方法進(jìn)行細(xì)胞聚類和注釋。將注釋的scRNA-seq數(shù)據(jù)與已知的LRIs集成，通常計(jì)算樣本特定的LR分?jǐn)?shù)，量化相互作用的潛力。基于LR共表達(dá)，LR評(píng)分函數(shù)可分為表達(dá)閾值、表達(dá)相關(guān)、表達(dá)乘積和微分表達(dá)組合等幾類。例如，Camp等人僅在配體和受體的表達(dá)值都高于某一閾值[log2(FPKM)≥5]時(shí)才考慮LR配對(duì)。相比之下，SingleCellSignalR方法是基于LR基因表達(dá)水平的乘積。

近年來(lái)，基于scRNA-seq數(shù)據(jù)預(yù)測(cè)CCC的計(jì)算方法不斷發(fā)展。CCC推理工具根據(jù)其特點(diǎn)可分為三類:基于網(wǎng)絡(luò)的推理工具、基于機(jī)器學(xué)習(xí)的推理工具和基于空間信息的推理工具?；诰W(wǎng)絡(luò)的方法，包括NicheNet、細(xì)胞-細(xì)胞通信資源管理器(CCCExplorer)、scConnect和多細(xì)胞相互作用網(wǎng)絡(luò)分析工具包(NATMI)，利用基因之間的連接網(wǎng)絡(luò)來(lái)預(yù)測(cè)CCC。例如，NicheNet將單細(xì)胞表達(dá)數(shù)據(jù)與信號(hào)通路和基因調(diào)控網(wǎng)絡(luò)的先驗(yàn)知識(shí)整合在一起，其特點(diǎn)是應(yīng)用個(gè)性化PageRank算法，用于計(jì)算配體-靶標(biāo)調(diào)控潛在分?jǐn)?shù)。在基于機(jī)器學(xué)習(xí)的方法中采用了各種類型的機(jī)器學(xué)習(xí)算法，如SingleCellSignalR、基于相似矩陣優(yōu)化的單細(xì)胞數(shù)據(jù)分析(SoptSC)和Python最大信息網(wǎng)絡(luò)探索資源(PyMINEr)。此外，參考成分分析(RCA -CCA)、線性回歸和決策樹分類器也用于CCC預(yù)測(cè)。細(xì)胞在空間上的定位或細(xì)胞間的空間接近是細(xì)胞定位的前提;因此，考慮空間信息將提高CCC推斷的準(zhǔn)確性。隨著空間轉(zhuǎn)錄組學(xué)的快速發(fā)展，許多CCC推斷方法將scRNA-seq數(shù)據(jù)與空間轉(zhuǎn)錄組學(xué)和/或圖像數(shù)據(jù)相結(jié)合，用于識(shí)別CCC。CellTalker通過(guò)計(jì)算LRIs的數(shù)量來(lái)評(píng)分細(xì)胞類型之間的通信，然后使用圖像數(shù)據(jù)通過(guò)細(xì)胞之間的空間接近性來(lái)評(píng)估。此外，在Python (Squidpy)和組織學(xué)地形細(xì)胞術(shù)分析工具箱(histoCAT)中對(duì)分子數(shù)據(jù)的空間量化提供了空間組學(xué)數(shù)據(jù)的分析框架，其中可以通過(guò)細(xì)胞接近或鄰域分析來(lái)研究細(xì)胞間的通信。此外，CellChat的作者將空間信息作為評(píng)估不同CCC推斷方法的金標(biāo)準(zhǔn)，并表明CellChat在預(yù)測(cè)更強(qiáng)的相互作用方面表現(xiàn)得更好。最后，通常采用熱圖、馬戲圖、桑基圖和氣泡圖對(duì)推理結(jié)果進(jìn)行可視化。

新興的用于識(shí)別CCC的計(jì)算方法提高了我們對(duì)疾病發(fā)展微環(huán)境的理解。然而，所有的方法都依賴于LRIs的先驗(yàn)知識(shí)和統(tǒng)計(jì)或機(jī)器學(xué)習(xí)模型來(lái)預(yù)測(cè)潛在的CCC事件。或者選擇LRI資源和預(yù)測(cè)方法可能會(huì)導(dǎo)致不同的結(jié)果，但選擇對(duì)結(jié)果的影響在很大程度上是未知的。為了解決這一問(wèn)題，最近的一項(xiàng)研究系統(tǒng)地比較了16種資源和7種CCC推斷方法，以及比較方法的一致性。對(duì)比表明，不同的LRI資源覆蓋了不同比例的集體先驗(yàn)知識(shí)，預(yù)測(cè)的CCC在很大程度上相互不一致，這表明需要繼續(xù)努力改進(jìn)CCC推斷資源和工具。

Regulon inference and TF activity prediction

轉(zhuǎn)錄因子在基因表達(dá)調(diào)控中起著至關(guān)重要的作用，參與了人類的各種生理病理過(guò)程。在scRNA-seq中已經(jīng)實(shí)現(xiàn)了識(shí)別被感興趣的tf直接調(diào)控的共表達(dá)模塊，并將這些模塊定義為調(diào)控子。因此，繪制細(xì)胞類型特異性調(diào)控圖和重建單個(gè)細(xì)胞中基于調(diào)控的調(diào)控網(wǎng)絡(luò)成為可能。

識(shí)別規(guī)則的一個(gè)重要資源是TF-target數(shù)據(jù)庫(kù)。動(dòng)物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)(Animal Transcription Factor DataBase, AnimalTFDB)、JASPAR、基于語(yǔ)句的文本挖掘(trust)揭示的轉(zhuǎn)錄調(diào)控關(guān)系、KnockTF和Cistrome Data Browser (Cistrome DB)是應(yīng)用廣泛的TF注釋數(shù)據(jù)庫(kù)，涵蓋了大多數(shù)人和小鼠的TF?；谶@些數(shù)據(jù)庫(kù)，建立細(xì)胞類型特異性轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)的一種簡(jiǎn)單方法是識(shí)別上調(diào)的tf和/或差異表達(dá)的tf靶基因。例如，最近的一項(xiàng)scRNAseq研究基于AnimalTFDB TF注釋確定了差異表達(dá)的TF，并揭示了在胎兒上皮中表達(dá)的TF的再激活可能是克羅恩病的原因。

結(jié)合單細(xì)胞基因表達(dá)和全面的TF-靶標(biāo)信息，已經(jīng)有許多方法用于推斷規(guī)則和TF活性。共表達(dá)分析，如加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(WGCNA)，已廣泛應(yīng)用于bulk樣本，以檢測(cè)可能由相同TF調(diào)節(jié)的基因模塊。最近，這種方法也被應(yīng)用于scRNA-seq數(shù)據(jù)，例如，發(fā)現(xiàn)在HIV感染過(guò)程中表達(dá)發(fā)生顯著變化的基因模塊。單細(xì)胞調(diào)控網(wǎng)絡(luò)信息和聚類(single cell regulatory network information and clustering, SCENIC)方法是最早基于scRNA-seq數(shù)據(jù)進(jìn)行調(diào)控推理的方法，目前已被用于癌癥、COVID-19等多種疾病的調(diào)控網(wǎng)絡(luò)研究。在SCENIC中，首先通過(guò)隨機(jī)森林回歸等機(jī)器學(xué)習(xí)方法推斷TF與其目標(biāo)基因之間的共表達(dá)模塊，然后通過(guò)TF的binding motif分析進(jìn)行規(guī)則識(shí)別，只保留其在共表達(dá)模塊中的直接目標(biāo)，形成規(guī)則。最后，計(jì)算二值化分?jǐn)?shù)，以表明TF在每個(gè)細(xì)胞中的活性。其他方法，包括SCODE和SINCERITIES，利用scRNA-seq中重構(gòu)的偽時(shí)間信息，基于常微分方程或隨機(jī)微分方程模型推斷tf -靶標(biāo)調(diào)控網(wǎng)絡(luò)。此外，機(jī)器學(xué)習(xí)技術(shù)也被應(yīng)用于轉(zhuǎn)錄調(diào)控分析。例如，SIGNET采用多層感知器袋裝來(lái)識(shí)別規(guī)則，DeepDRIM采用監(jiān)督深度神經(jīng)網(wǎng)絡(luò)來(lái)重建基因調(diào)控網(wǎng)絡(luò)。特別是，DeepDRIM被證明能夠耐受scRNA-seq中的缺失事件，并在COVID-19輕、重度癥狀患者中識(shí)別出不同的B細(xì)胞調(diào)節(jié)網(wǎng)絡(luò)。

盡管基于scRNA-seq的基因調(diào)控分析方法很多，但由于轉(zhuǎn)錄調(diào)控的復(fù)雜性和scRNA-seq數(shù)據(jù)提供的信息不足，還需要對(duì)推斷結(jié)果進(jìn)行嚴(yán)格的判斷。進(jìn)行驗(yàn)證實(shí)驗(yàn)可以使推斷的結(jié)果更加可靠。

Metabolic analysis

代謝是所有生物過(guò)程的核心，代謝失調(diào)是許多疾病的標(biāo)志，包括癌癥、糖尿病和心血管疾病。雖然單細(xì)胞代謝組學(xué)技術(shù)正在迅速發(fā)展，但現(xiàn)在要大規(guī)模應(yīng)用還為時(shí)過(guò)早。相反，基于單細(xì)胞轉(zhuǎn)錄組學(xué)的代謝分析是一種有前途的替代方法。例如，研究人員可以使用scRNA-seq來(lái)監(jiān)測(cè)關(guān)鍵代謝基因在不同處理下或重要生理/病理過(guò)程中的基因表達(dá)變化
基于scrna序列的代謝分析的計(jì)算工具可分為兩大類:基于通路的分析和基于通量平衡分析(FBA)的方法。對(duì)于第一類，通常使用標(biāo)準(zhǔn)功能富集分析方法(請(qǐng)參閱題為功能富集分析的小節(jié))。特別是，R包scMetabolism為scRNA-seq中代謝途徑活性的定量分析提供了一個(gè)集成的框架，具有解釋退出的能力，并與用于單細(xì)胞功能富集分析的多種工具兼容，包括ssGSEA, Vision和AUCell。

另一類是基于fba的方法，其中利用基于約束的數(shù)學(xué)模型系統(tǒng)地模擬重建代謝網(wǎng)絡(luò)中的代謝。代謝網(wǎng)絡(luò)的重建通?；诓邉潝?shù)據(jù)庫(kù)，如京都基因和基因組百科全書(KEGG)和Reactome;然后，F(xiàn)BA在滿足輸入和輸出通量約束的情況下計(jì)算系統(tǒng)的靜態(tài)代謝通量。單細(xì)胞中單個(gè)酶的表達(dá)水平可能不會(huì)直接影響網(wǎng)絡(luò)中的代謝通量，因?yàn)樗鼈冎饕蕾囉诰W(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和約束條件。據(jù)我們所知，單細(xì)胞通量平衡分析(scFBA)是第一個(gè)結(jié)合scRNA-seq數(shù)據(jù)和FBA來(lái)估計(jì)單細(xì)胞通量體的計(jì)算工具。后來(lái)，提出了羅盤和單細(xì)胞通量估計(jì)分析(scFEA)。Compass基于Recon2對(duì)人體代謝的重建，并通過(guò)線性規(guī)劃解決基于約束的優(yōu)化問(wèn)題，對(duì)單個(gè)細(xì)胞中每個(gè)代謝反應(yīng)的潛在活性進(jìn)行評(píng)分。相比之下，scFEA引入了概率模型來(lái)考慮通量平衡約束，引入了多層神經(jīng)網(wǎng)絡(luò)來(lái)模擬通量變化和酶基因表達(dá)變化的非線性，并引入了圖神經(jīng)網(wǎng)絡(luò)來(lái)解決優(yōu)化問(wèn)題。scFEA的分析結(jié)果可以進(jìn)行各種生物學(xué)上有意義的下游分析，如細(xì)胞-細(xì)胞代謝通信。

discussion

最近，Live-seq已經(jīng)開發(fā)出來(lái)，通過(guò)保持細(xì)胞存活，同時(shí)從單個(gè)細(xì)胞中提取RNA，將scRNA-seq從端點(diǎn)型分析轉(zhuǎn)換為時(shí)間分析工作流。預(yù)計(jì)Live-seq將解決scRNA-seq之外的許多其他生物學(xué)問(wèn)題。此外，其他基于測(cè)序的單細(xì)胞分析技術(shù)也在快速發(fā)展中。為了更好地了解疾病條件下改變基因表達(dá)的異常調(diào)節(jié)，使用測(cè)序(ATAC-seq)的單細(xì)胞轉(zhuǎn)座子可達(dá)染色質(zhì)檢測(cè)(ATAC-seq)、單細(xì)胞DNA甲基化分析和單細(xì)胞Hi-C都有助于從不同角度在單細(xì)胞分辨率上解剖潛在的調(diào)控機(jī)制。算法也被開發(fā)來(lái)集成這些多模態(tài)單細(xì)胞數(shù)據(jù)，能夠更好地解決細(xì)胞狀態(tài)和定義新的細(xì)胞亞型。此外，單細(xì)胞多組學(xué)方法可以同時(shí)分析相同細(xì)胞中的兩個(gè)組學(xué)，為單個(gè)細(xì)胞提供調(diào)控元件和相應(yīng)基因表達(dá)水平的信息。這些技術(shù)生成的數(shù)據(jù)集可以幫助生物醫(yī)學(xué)研究人員發(fā)現(xiàn)特定疾病的調(diào)節(jié)程序，可能是在某些細(xì)胞類型的子集中。此外，雖然仍處于發(fā)育階段，但空間轉(zhuǎn)錄組學(xué)是一種很有前途的技術(shù)，可以考慮細(xì)胞環(huán)境來(lái)表征特定細(xì)胞的分子特征。隨著空間轉(zhuǎn)錄組學(xué)分辨率的不斷提高，期望在分析細(xì)胞微環(huán)境和細(xì)胞與健康和疾病的相互作用方面獲得更深入的知識(shí)?？偟膩?lái)說(shuō)，隨著技術(shù)的不斷進(jìn)步，特別是那些以單細(xì)胞分辨率解析分子特性和相互作用的技術(shù)，我們將能夠更好地了解各種疾病的發(fā)病機(jī)制，并在不久的將來(lái)實(shí)現(xiàn)個(gè)性化治療。

參考文獻(xiàn)

Su, M., Pan, T., Chen, QZ. et al. Data analysis guidelines for single-cell RNA-seq in biomedical studies and clinical applications. Military Med Res 9, 68 (2022). https://doi.org/10.1186/s40779-022-00434-8

原文詳見(jiàn)：

https://mmrjournal.biomedcentral.com/articles/10.1186/s40779-022-00434-8

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

生物醫(yī)學(xué)研究和臨床應(yīng)用中單細(xì)胞RNA-seq數(shù)據(jù)分析指南

生物醫(yī)學(xué)研究和臨床應(yīng)用中單細(xì)胞RNA-seq數(shù)據(jù)分析指南

作者，Evil Genius

時(shí)光飛逝，且行且珍惜。

Background

General tasks of single?cell RNA?seq data analysis

Experimental design

Raw data processing

QC and doublet removal

Expression normalization

Data integration

Feature selection

Dimensionality reduction and visualization

Identification of cell subpopulations

Cell type annotation

Marker gene identification

Functional enrichment analysis

Trajectory inference and RNA velocity

Cell–cell communications

Regulon inference and TF activity prediction

Metabolic analysis

discussion

參考文獻(xiàn)

原文詳見(jiàn)：

生活很好，有你更好，抄襲者可恥

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

生物醫(yī)學(xué)研究和臨床應(yīng)用中單細(xì)胞RNA-seq數(shù)據(jù)分析指南

作者，Evil Genius

時(shí)光飛逝，且行且珍惜。

Background

General tasks of single?cell RNA?seq data analysis

Experimental design

Raw data processing

QC and doublet removal

Expression normalization

Data integration

Feature selection

Dimensionality reduction and visualization

Identification of cell subpopulations

Cell type annotation

Marker gene identification

Functional enrichment analysis

Trajectory inference and RNA velocity

Cell–cell communications

Regulon inference and TF activity prediction

Metabolic analysis

discussion

參考文獻(xiàn)

原文詳見(jiàn)：

生活很好，有你更好，抄襲者可恥

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

時(shí)光飛逝，且行且珍惜。

生活很好，有你更好，抄襲者可恥