sc-Review:單細(xì)胞RNA-seq數(shù)據(jù)分析最佳實(shí)踐

Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial. Mol. Syst. Biol. 2019, 15: e8746.

摘要

single cell RNA-seq 提高了基因表達(dá)研究的分辨率,這項(xiàng)技術(shù)也帶來越來越多的單細(xì)胞分析方法。這使得研究者難以駕馭這一多工具格局并從中搭建最新的工作流程來分析自己的數(shù)據(jù)。在這里,我們?cè)敿?xì)介紹了典型的單細(xì)胞 RNA-seq 數(shù)據(jù)分析步驟,包括預(yù)處理(質(zhì)量控制、標(biāo)準(zhǔn)化、數(shù)據(jù)校正、特征選擇和降維)以及細(xì)胞及基因水平的下游分析。我們根據(jù)獨(dú)立比較研究為這些步驟制定了當(dāng)前(2019年)最佳實(shí)踐建議。我們已將這些最佳實(shí)踐建議整合到工作流中,并將其應(yīng)用于公共數(shù)據(jù)集,以進(jìn)一步說明這些步驟在實(shí)踐中如何工作。我們的案例研究可參見https://www.github.com/theislab/single-cell-tutorial。這篇綜述將作為單細(xì)胞新手進(jìn)入該領(lǐng)域的數(shù)據(jù)分析流程指南,并幫助現(xiàn)有的研究人員更新他們的分析流程。

關(guān)鍵詞:分析流程開發(fā);計(jì)算生物學(xué);數(shù)據(jù)分析教程;單細(xì)胞 RNA-seq

概述

近年來,單細(xì)胞 RNA 測(cè)序 (scRNA-seq) 推進(jìn)了我們對(duì)生物系統(tǒng)的認(rèn)識(shí)。我們已經(jīng)能夠研究斑馬魚、青蛙和渦蟲的細(xì)胞異質(zhì)性 (Briggs et al,2018;Plass et al,2018;Wagner et al,2018),并發(fā)現(xiàn)之前被掩蓋的細(xì)胞群 (Montoro et al,2018;Plasschaert et al,2018)。該技術(shù)的巨大潛力促使計(jì)算生物學(xué)家開發(fā)一系列分析工具 (Rostom et al,2017)。盡管該領(lǐng)域正在努力確保單個(gè)工具的可用性,但單細(xì)胞數(shù)據(jù)分析中,新手的一個(gè)進(jìn)入障礙( a barrier of entry)是由于該領(lǐng)域相對(duì)不成熟而缺乏標(biāo)準(zhǔn)。在本文中,我們簡述目前scRNA-seq 分析的最佳做法,為今后的分析標(biāo)準(zhǔn)化奠定基礎(chǔ)。

標(biāo)準(zhǔn)化面臨的挑戰(zhàn)包括分析方法不斷增加(截至 2019 年 3 月 7 日已達(dá) 385多種工具)和數(shù)據(jù)集規(guī)模爆炸性增長 (Angerer et al,2017;Zappia et al,2018)。我們正在不斷尋找新的方法來使用我們所測(cè)得的數(shù)據(jù)。例如,最近的工具可預(yù)測(cè)分化中的細(xì)胞命運(yùn) (La Manno et al,2018)。分析工具的不斷改進(jìn)有利于產(chǎn)生新的科學(xué)洞察力,但這也使標(biāo)準(zhǔn)化更加復(fù)雜。

標(biāo)準(zhǔn)化的第二個(gè)挑戰(zhàn)在于技術(shù)方面。scRNA-seq 數(shù)據(jù)的分析工具用各種編程語言,最突出的是 R 和 Python (Zappia et al,2018)。盡管跨環(huán)境的工具正在增長(預(yù)印:Scholz et al,2018),但編程語言的選擇通常也是分析工具之間的一種選擇。Seurat (Butler et al,2018)、Scater (McCarthy et al,2017) 或 Scanpy (Wolf et al,2018) 等熱門平臺(tái)提供了開發(fā)流程的集成環(huán)境,且包含大型分析工具。然而,這些平臺(tái)僅限于使用各自編程語言開發(fā)的工具。通過擴(kuò)展,語言限制也適用于目前可用的 scRNA-seq 分析教程,其中許多教程圍繞上述平臺(tái)(R 和 bioconductor 工具:https://github.com/drisso/bioc2016singlecellhttps://hemberg-lab.github.io/scRNA.seq.Lun 等人,2016b;Seurat;scanpy.

考慮到上述挑戰(zhàn),我們并沒有標(biāo)準(zhǔn)化分析流程,而是概述了當(dāng)前的最佳實(shí)踐和獨(dú)立于編程語言的通用工具。我們指導(dǎo)讀者完成 scRNA-seq 分析流程的各個(gè)步驟(圖 1),介紹當(dāng)前的最佳實(shí)踐,并討論分析陷阱提出開放性問題。由于工具的新穎性和缺乏比較,事實(shí)上無法確定最佳實(shí)踐,因此我們列出了流行的可用工具。所概述的步驟從reads或計(jì)數(shù)矩陣開始,得出潛在分析終點(diǎn),Lun et al (2016b) 涵蓋了早期預(yù)處理步驟。整合現(xiàn)有最佳實(shí)踐的詳細(xì)案例研究可從我們的 github 獲得,網(wǎng)址為:https://github.com/theislab/single-cell-tutorial/。在這里,我們?cè)谝粋€(gè)實(shí)際的示例工作流中應(yīng)用了當(dāng)前的最佳實(shí)踐來分析公共數(shù)據(jù)集。分析工作流程用rpy2在 Jupyter-Ipython notebook中集成了 R 和 Python 工具。有了可用的文檔,它很容易作為工作流模板進(jìn)行二次修改。

圖 1. 典型的單細(xì)胞 RNA-seq 分析工作流程示意圖。原始測(cè)序數(shù)據(jù)經(jīng)過處理和比對(duì),得到計(jì)數(shù)矩陣,代表工作流程的開始。計(jì)數(shù)矩陣經(jīng)過預(yù)處理和下游分析。使用 Haber et al (2017) 腸上皮細(xì)胞數(shù)據(jù)的最佳實(shí)踐工作流程生成子圖。
框1:實(shí)驗(yàn)性scRNA-seq工作流的關(guān)鍵元素

從生物樣本到可分析的單細(xì)胞數(shù)據(jù)需要經(jīng)過多個(gè)步驟。典型的工作流程包括:單細(xì)胞解離、單細(xì)胞分離、文庫構(gòu)建和測(cè)序。對(duì)這些階段的簡要概述如下:單細(xì)胞實(shí)驗(yàn)的起始材料通常以生物組織樣本的形式獲得。

單細(xì)胞懸浮液的制備作為第一步,是在一個(gè)被稱為單細(xì)胞解離的過程中產(chǎn)生的,其中組織被消化。為分析每個(gè)細(xì)胞中的 mRNA,必須分離細(xì)胞。單細(xì)胞分離根據(jù)實(shí)驗(yàn)方案的不同而不同。雖然基于平板的技術(shù)將細(xì)胞隔離到平板上的孔中,但基于液滴的方法依賴于在自己的微流體液滴中捕獲每個(gè)細(xì)胞。在這兩種情況下,都可能發(fā)生錯(cuò)誤,導(dǎo)致多個(gè)細(xì)胞被捕獲在一起(doublets or multiplets)、非活細(xì)胞被捕獲或完全沒有細(xì)胞被捕獲(空液滴/孔)形成空滴的情況尤其常見,因?yàn)榛谝旱蔚姆椒ㄒ揽康蜐舛鹊妮斎爰?xì)胞流動(dòng)來控制雙聯(lián)體率。每孔或液滴中都含有分解細(xì)胞膜和進(jìn)行文庫構(gòu)建所必需的化學(xué)物質(zhì)。胞內(nèi) mRNA 被捕獲、反轉(zhuǎn)錄為 cDNA 分子并擴(kuò)增的過程稱為文庫構(gòu)建。當(dāng)細(xì)胞隔離進(jìn)行這一過程時(shí),每個(gè)細(xì)胞的 mRNA 可以被一個(gè)孔或滴特定的細(xì)胞條形碼標(biāo)記。此外,許多實(shí)驗(yàn)方案也用唯一分子標(biāo)識(shí)符 (UMI) 標(biāo)記捕獲的分子。測(cè)序前擴(kuò)增細(xì)胞 cDNA,以增加其被測(cè)量的概率。UMIs 允許我們區(qū)分相同 mRNA 分子的擴(kuò)增拷貝和從相同基因轉(zhuǎn)錄的不同 mRNA 分子的reads。

構(gòu)建好文庫后,使用細(xì)胞條形碼進(jìn)行標(biāo)記,并根據(jù)協(xié)議進(jìn)行UMIs標(biāo)記。這些庫匯集在一起(multiplexed)用于測(cè)序。序列產(chǎn)生reads數(shù)據(jù),這些數(shù)據(jù)經(jīng)過質(zhì)量控制,再準(zhǔn)備階段根據(jù)指定的條形碼(demultiplexing)和reads比對(duì)區(qū)分細(xì)胞。對(duì)于基于umi的協(xié)議,reads數(shù)據(jù)可以被進(jìn)一步解復(fù)用以產(chǎn)生捕獲的mRNA分子計(jì)數(shù)(count data)。

Pre-processing and visualization

對(duì)測(cè)序儀生成的原始數(shù)據(jù)進(jìn)行處理,以獲得分子計(jì)數(shù)(count 矩陣)或讀數(shù)(reads矩陣)的矩陣,這取決于是否在單細(xì)胞文庫構(gòu)建方案中納入了獨(dú)特的分子標(biāo)識(shí)符 ( unique molecular
identifiers ,UMI)(有關(guān)分析前的實(shí)驗(yàn)步驟概述,請(qǐng)參見框 1)。Cell Ranger (Zheng et al,2017)、indrops (Klein et al,2015)、SEQC (Azizi et al,2018) 或 zUMIs (Parekh et al,2018) 等原始數(shù)據(jù)處理流程負(fù)責(zé)reads質(zhì)量控制 (QC),為其細(xì)胞barcode和 mRNA 來源分子(也稱為解復(fù)用,demultiplexing)分配reads、基因組比對(duì)和定量。得到的reads或計(jì)數(shù)矩陣包含barcode x 轉(zhuǎn)錄本數(shù)量的高緯數(shù)據(jù)。此處使用術(shù)語barcode代替細(xì)胞,因?yàn)樗衦eads均為分配給相同的barcode可能與來自同一細(xì)胞的reads不一致。一個(gè)barcode可能錯(cuò)誤地標(biāo)記多個(gè)細(xì)胞(雙聯(lián)體)或可能不標(biāo)記任何細(xì)胞(空滴/孔)。雖然reads和計(jì)數(shù)數(shù)據(jù)的測(cè)量噪聲水平不同,但典型分析流程中的處理步驟相同。為了簡單起見,我們將在本教程中將這些數(shù)據(jù)稱為count矩陣。如果reads和count矩陣的結(jié)果不同,則專門指出reads矩陣。

Quality control

在分析單細(xì)胞基因表達(dá)數(shù)據(jù)之前,我們必須確保所有的細(xì)胞barcode數(shù)據(jù)都對(duì)應(yīng)于活細(xì)胞。細(xì)胞 QC 通常基于三個(gè) QC 變量進(jìn)行:

  • 每個(gè)barcode的計(jì)數(shù)數(shù)量(count depth )
  • 每個(gè)barcode的基因數(shù)量
  • 每個(gè)barcode的線粒體基因計(jì)數(shù)分?jǐn)?shù) (Ilicic et al,2016;Griffiths et al,2018)

檢查這些 QC 變量的分布,以確定是否存在通過閾值處理過濾掉的離群峰(圖 2)。這些異常barcode可能對(duì)應(yīng)于死細(xì)胞、膜破損的細(xì)胞或雙聯(lián)體。例如,低計(jì)數(shù)深度的barcode、很少檢測(cè)到的基因以及線粒體計(jì)數(shù)的高分?jǐn)?shù)都表明細(xì)胞的細(xì)胞質(zhì) mRNA 已經(jīng)通過破損的膜漏出,只有位于線粒體中的 mRNA 仍然是保守的(圖 2)。與之相反,非預(yù)期高計(jì)數(shù)和大量檢測(cè)基因的細(xì)胞可能代表雙聯(lián)體。因此,高計(jì)數(shù)深度閾值常用于過濾掉潛在的雙峰。最近的三種雙聯(lián)檢測(cè)工具提供了更優(yōu)雅和可能更好的解決方案 (DoubletDecon:preprint:DePasquale et al,2018;Scrublet:Wolock et al,2019;doublet Finder:McGinnis et al,2018)。

圖 2. Haber et al (2017) 的小鼠腸上皮數(shù)據(jù)集過濾決策的質(zhì)量控制指標(biāo)圖。(A) 每個(gè)cell的計(jì)數(shù)深度直方圖。較小的直方圖在計(jì)數(shù)深度低于 4,000 時(shí)放大。根據(jù)在約 1,200 個(gè)計(jì)數(shù)處檢測(cè)到的峰值,此處應(yīng)用的閾值為 1,500。(B) 每個(gè)細(xì)胞檢測(cè)到的基因數(shù)的直方圖。在大約 400 個(gè)基因處可見一個(gè)小的噪聲峰。這些細(xì)胞使用描述的閾值(紅線)700 個(gè)基因過濾掉。計(jì)數(shù)深度分布從高到低計(jì)數(shù)深度。該可視化與 Cell Ranger 輸出中顯示的 logClog 圖相關(guān),該輸出用于過濾空液滴。它顯示了一個(gè)肘部的計(jì)數(shù)深度開始迅速減少約 1500 計(jì)數(shù)。(D) 通過線粒體讀數(shù)部分染色的基因數(shù)量與計(jì)數(shù)深度的關(guān)系。線粒體讀取片段僅在檢測(cè)基因很少的特別低計(jì)數(shù)細(xì)胞中高。這些細(xì)胞被我們的計(jì)數(shù)和基因數(shù)閾值過濾掉。聯(lián)合可視化計(jì)數(shù)和基因閾值顯示聯(lián)合過濾效果,表明較低的基因閾值可能已經(jīng)足夠

單獨(dú)考慮這三個(gè)細(xì)胞 QC 變量中的任何一個(gè)都可能導(dǎo)致對(duì)細(xì)胞信號(hào)的誤解。例如,具有較高線粒體計(jì)數(shù)的細(xì)胞可能參與呼吸過程。同樣,其他 QC 變量也有生物學(xué)解釋。低count和(或)基因的細(xì)胞可對(duì)應(yīng)靜止細(xì)胞群,高count的細(xì)胞體積可能更大。事實(shí)上,細(xì)胞之間的分子計(jì)數(shù)可能存在強(qiáng)烈差異(參見項(xiàng)目 github 的案例研究)。因此,當(dāng)單變量閾值決策時(shí),應(yīng)聯(lián)合考慮細(xì)胞 QC 變量(圖 2D),這些閾值應(yīng)盡可能設(shè)置為允許的,以避免無意中過濾掉活細(xì)胞群??紤]到多變量細(xì)胞 QC 的依賴性,篩選模型可能提供更敏感的 QC 選項(xiàng)。

含有異質(zhì)混合細(xì)胞類型的數(shù)據(jù)集可能顯示多個(gè) 細(xì)胞QC 變量峰值。例如,圖 2D 顯示了具有不同 QC 分布的兩個(gè)細(xì)胞群。如果之前沒有進(jìn)行過濾步驟(注意 Cell Ranger 也進(jìn)行細(xì)胞 QC),那么只有每個(gè)barcode峰的最低計(jì)數(shù)深度和基因應(yīng)該被認(rèn)為是非活細(xì)胞。進(jìn)一步的閾值指導(dǎo)原則是使用所選閾值過濾掉的細(xì)胞比例。對(duì)于高計(jì)數(shù)過濾,該比例不應(yīng)超過預(yù)期的雙聯(lián)率。

除了檢查細(xì)胞的完整性,細(xì)胞 QC 步驟也必須在轉(zhuǎn)錄本水平上進(jìn)行。原始計(jì)數(shù)基質(zhì)通常超過 20,000 個(gè)基因。通過過濾掉在少數(shù)細(xì)胞中不表達(dá)的基因,可以大幅減少這一數(shù)量。設(shè)置此閾值的一個(gè)準(zhǔn)則是使用最小cell群,并留下一些dropout 效應(yīng)(dropout effects. )的余地。例如,篩選出少于 20 個(gè)細(xì)胞中表達(dá)的基因可能會(huì)使檢測(cè)少于 20 個(gè)細(xì)胞的細(xì)胞團(tuán)變得困難。對(duì)于高脫落(dropout )率的數(shù)據(jù)集,這個(gè)閾值也可能使較大簇的檢測(cè)復(fù)雜化。閾值的選擇應(yīng)根據(jù)數(shù)據(jù)集中的細(xì)胞數(shù)量和預(yù)期的下游分析進(jìn)行調(diào)整。

可直接對(duì)計(jì)數(shù)數(shù)據(jù)進(jìn)行進(jìn)一步 QC。Ambient gene expression(環(huán)境基因表達(dá))指不是來自barcode細(xì)胞,而是來自其他溶解細(xì)胞的count,這些細(xì)胞的 mRNA 在文庫構(gòu)建之前污染了細(xì)胞懸液。這些增加的環(huán)境計(jì)數(shù)會(huì)扭曲下游分析,如標(biāo)記基因鑒定或其他差異表達(dá)檢測(cè),尤其是當(dāng)樣本之間的水平變化時(shí)。在基于液滴的 scRNA-seq 數(shù)據(jù)集中校正這些影響是可能的,由于大量的空液滴,可用于模擬環(huán)境RNA表達(dá)譜。最近開發(fā)的SoupX(預(yù)印本:Young &
使用這種方法直接糾正計(jì)數(shù)數(shù)據(jù)。在下游分析中忽視強(qiáng)環(huán)境基因的實(shí)用方法也被用來解決這個(gè)問題(Ange- lidis et al, 2019)。

進(jìn)行質(zhì)量控制以確保數(shù)據(jù)質(zhì)量足以用于下游分析。由于無法先驗(yàn)確定足夠的數(shù)據(jù)質(zhì)量,因此根據(jù)下游分析性能(例如,聚類注釋)進(jìn)行判斷。在分析數(shù)據(jù)時(shí),可能需要多次重新審查質(zhì)量控制參數(shù)。通常,從允許的質(zhì)控閾值開始,在執(zhí)行更嚴(yán)格的質(zhì)控之前研究這些閾值的影響是有益的。這種方法對(duì)于包含異質(zhì)性細(xì)胞群的數(shù)據(jù)集特別重要,其中細(xì)胞類型或狀態(tài)可能被錯(cuò)誤解釋為低質(zhì)量離群細(xì)胞。在低質(zhì)量數(shù)據(jù)集中,嚴(yán)格的 QC 閾值可能是必要的??赏ㄟ^試驗(yàn) QC 指標(biāo)確定數(shù)據(jù)集的質(zhì)量(見附錄補(bǔ)充文本 S2,卑微小王手頭并沒有補(bǔ)充文檔,從略)。在這種迭代 QC 優(yōu)化中,應(yīng)該注意數(shù)據(jù)窺視(data peeking.)。不應(yīng)調(diào)整 QC 閾值以改善統(tǒng)計(jì)檢驗(yàn)的結(jié)果。相反,可根據(jù)數(shù)據(jù)集可視化和聚類中的 QC 變量分布來評(píng)價(jià) QC效用。

問題和建議:
?通過基因數(shù)量、計(jì)數(shù)深度和線粒體reads分?jǐn)?shù)的異常峰來執(zhí)行細(xì)胞QC??紤]這些共同的影響而不是單獨(dú)的考慮它們。
?盡可能地容忍QC閾值化,如果下游聚類無法解釋,則重新QC。
?如果QC變量在樣品之間的分布不同,則應(yīng)針對(duì)每個(gè)樣品分別QC,以解釋樣品質(zhì)量差異,如Plasschaert等(2018)。

Normalization

計(jì)數(shù)矩陣中的每個(gè)計(jì)數(shù)代表細(xì)胞 mRNA 分子的成功捕獲、逆轉(zhuǎn)錄和測(cè)序(框 1)。由于每個(gè)步驟固有的變異性,相同細(xì)胞的計(jì)數(shù)深度結(jié)果卻可能不同。因此,當(dāng)基于計(jì)數(shù)數(shù)據(jù)比較細(xì)胞間的基因表達(dá)時(shí),任何差異可能僅由采樣效應(yīng)( sampling effects.)引起。通過例如縮放( sampling effects)計(jì)數(shù)數(shù)據(jù)以獲得正確的細(xì)胞間相對(duì)基因表達(dá)豐度來解決這一問題。

bulk RNA數(shù)據(jù)已有許多標(biāo)準(zhǔn)化方法 (preprint:Pachter,2011;Dillies et al,2013)。雖然其中一些方法已應(yīng)用于 scRNA-seq 分析,但單細(xì)胞數(shù)據(jù)特有的變異來源如技術(shù)脫落(technical dropouts )(取樣導(dǎo)致的零計(jì)數(shù),雙零問題)促使開發(fā)出了針對(duì) scRNA-seq 的標(biāo)準(zhǔn)化方法 (Lun et al,2016a;Vallejos et al,2017)。

最常用的規(guī)范化協(xié)議是 count depth scaling,也稱為每百萬計(jì)數(shù)或 CPM 規(guī)范化。該方案來自bulk 表達(dá)分析,并使用與每個(gè)細(xì)胞計(jì)數(shù)深度成比例的所謂大小因子對(duì)計(jì)數(shù)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。該方法的變體使用不同的因子或數(shù)據(jù)集中每個(gè)細(xì)胞的中位計(jì)數(shù)深度縮放。CPM 標(biāo)準(zhǔn)化假設(shè)數(shù)據(jù)集中的所有細(xì)胞最初包含相同數(shù)量的 mRNA 分子,計(jì)數(shù)深度差異僅由于取樣產(chǎn)生。該假設(shè)與下采樣(downsampling)方案相同,下采樣方案是從數(shù)據(jù)中隨機(jī)取樣讀取或計(jì)數(shù),使所有細(xì)胞的計(jì)數(shù)預(yù)先規(guī)定的數(shù)量或更少。在下采樣丟掉數(shù)據(jù)的同時(shí),也增加了技術(shù)脫落率,而 CPM 和其他全局縮放標(biāo)準(zhǔn)化方法則沒有。因此,下采樣可以提供類似計(jì)數(shù)深度下細(xì)胞表達(dá)譜的更真實(shí)表示。

由于單細(xì)胞數(shù)據(jù)集通常由具有不同大小和分子計(jì)數(shù)的異質(zhì)細(xì)胞群組成,因此更復(fù)雜的標(biāo)準(zhǔn)化方法通常是合適的。例如,Weinreb et al (2018) 使用了 CPM 的簡單延伸,計(jì)算它們的大小因子時(shí),排除了任何細(xì)胞中占總計(jì)數(shù)至少 5% 的基因。這種方法考慮到了少數(shù)高表達(dá)基因的分子計(jì)數(shù)變異性?;?Scran 合并的尺寸因素估計(jì)(pooling-based size factor estimation)方法允許更多的細(xì)胞異質(zhì)性 (Lun et al,2016a)。細(xì)胞合并后,根據(jù)基因的線性回歸估算大小因子,以避免技術(shù)脫落效應(yīng)。該方法將變異性限制在細(xì)胞間差異表達(dá)基因的 50% 以下,并且在獨(dú)立比較中始終是性能最佳的標(biāo)準(zhǔn)化方法。經(jīng)證明,Scran 在批次校正( batch correction) (Buttner et al,2019) 和差異表達(dá)分析 (preprint:vith et al,2019) 方面的性能優(yōu)于其他檢測(cè)的歸一化方法。在與原作者的小規(guī)模比較中,該方法也顯示出穩(wěn)健的尺寸因子估計(jì)值 (Vallejos et al,2017)。

CPM、高計(jì)數(shù)過濾 CPM 和 scran 使用線性、全局縮放標(biāo)準(zhǔn)化計(jì)數(shù)數(shù)據(jù)。還存在非線性歸一化方法,可解釋更復(fù)雜的異質(zhì)性(Cole et al,2019)。許多方法涉及到計(jì)數(shù)資料的參數(shù)化建模。例如,Mayer et al (2018) 使用技術(shù)變量(如測(cè)序深度和每個(gè)基因的計(jì)數(shù)數(shù)量)擬合負(fù)二項(xiàng)模型,以擬合模型參數(shù)。模型擬合的殘差作為基因表達(dá)的標(biāo)準(zhǔn)化定量。這種方法可以將技術(shù)和生物數(shù)據(jù)校正(例如批次校正或細(xì)胞周期效應(yīng)校正)與計(jì)數(shù)深度歸一化相結(jié)合。已證明非線性歸一化方法優(yōu)于全局縮放方法,尤其是在具有強(qiáng)批次效應(yīng)的情況下 (Cole et al,2019)。因此,非線性歸一化方法對(duì)于基于平板的 scRNA-seq 數(shù)據(jù)尤其相關(guān),這些數(shù)據(jù)往往在平板之間存在批次效應(yīng)。此外,與基于液滴的數(shù)據(jù)相比,基于平板的數(shù)據(jù)可顯示每個(gè)細(xì)胞計(jì)數(shù)深度的較大變化 (Svensson et al,2017)。雖然非線性歸一化方法或替代方法(例如下采樣)似乎更適合這些條件,但需要進(jìn)行比較研究來確認(rèn)該假設(shè)。在本教程中,我們傾向于將標(biāo)準(zhǔn)化和數(shù)據(jù)校正(批次校正、噪聲校正等)步驟分開,以強(qiáng)調(diào)數(shù)據(jù)的不同處理階段(參見預(yù)處理數(shù)據(jù)部分的階段)。因此,我們著重研究全局尺度歸一化方法(global scaling normalization)。

我們不能期望單一的標(biāo)準(zhǔn)化方法適合所有類型的 scRNA-seq 數(shù)據(jù)。例如,vith et al (2017) 表明reads和計(jì)數(shù)數(shù)據(jù)可通過不同模型進(jìn)行最佳擬合。事實(shí)上,Cole et al (2019) 發(fā)現(xiàn)沒有一種歸一化方法對(duì)不同的數(shù)據(jù)集表現(xiàn)都是最佳的,并認(rèn)為應(yīng)使用其 scone 工具為特定數(shù)據(jù)集選擇適當(dāng)?shù)臍w一化方法。此外,scRNA-seq 技術(shù)可分為全長和 30 種富集方法 (Svensson et al,2017;Ziegenhain et al,2017)。來自全長方案的數(shù)據(jù)可能受益于考慮到基因長度的標(biāo)準(zhǔn)化方法(例如 Patel et al,2014;Kowalczyk et al,2015;Soneson)

細(xì)胞計(jì)數(shù)數(shù)據(jù)可以歸一化,使細(xì)胞間具有可比性,同樣,基因計(jì)數(shù)也可以按比例調(diào)整,以改善基因間的比較?;驓w一化構(gòu)成基因計(jì)數(shù)的標(biāo)度,使其均值和單位變異(z值)為零。這種比例的變化影響了所有的基因下游分析的權(quán)重。是否對(duì)基因進(jìn)行歸一化目前尚無共識(shí)。雖然流行的Seurat教程(Butler et al, 2018)通常應(yīng)用基因縮放(scaling,),但Slingshot方法的作者在他們的教程中選擇不縮放基因(Street et al, 2018)。這兩種選擇之間的偏好圍繞著是否所有的基因都應(yīng)該在下游分析中得到同等的權(quán)重,或者一個(gè)基因的表達(dá)量是否代表了該基因的重要性。為了盡可能多地保留數(shù)據(jù)中的生物信息,我們選擇在本教程中避免對(duì)基因進(jìn)行篩選。

歸一化后,數(shù)據(jù)矩陣通常是對(duì)數(shù) (+ 1) 轉(zhuǎn)換的。這種轉(zhuǎn)變有三個(gè)重要作用。

  • 首先,對(duì)數(shù)轉(zhuǎn)換的表達(dá)值之間的距離代表對(duì)數(shù)倍數(shù)變化,這是衡量表達(dá)變化的經(jīng)典方式。
  • 其次,對(duì)數(shù)轉(zhuǎn)換減輕(但不消除)單細(xì)胞數(shù)據(jù)中的均值方差關(guān)系 (Brennecke et al,2013)。
  • 最后,對(duì)數(shù)轉(zhuǎn)換降低了數(shù)據(jù)的偏斜度,以適用于假設(shè)數(shù)據(jù)呈正態(tài)分布的下游分析工具。

雖然 scRNA-seq 數(shù)據(jù)實(shí)際上不是對(duì)數(shù)正態(tài)分布 (Vieth et al,2017),但這三種效應(yīng)使對(duì)數(shù)轉(zhuǎn)換成為一種粗糙但有用的工具。差異表達(dá)檢測(cè) (Finak et al,2015;Ritchie et al,2015) 或批次校正 (Johnson et al,2006;Buttner et al,2019) 的下游應(yīng)用強(qiáng)調(diào)了這種有用性,這些應(yīng)用將對(duì)數(shù)轉(zhuǎn)換用于這些目的。但是,應(yīng)該注意的是,歸一化數(shù)據(jù)的對(duì)數(shù)轉(zhuǎn)換可在數(shù)據(jù)中引入虛假差異表達(dá)效應(yīng)(預(yù)?。篖un,2018)。當(dāng)歸一化大小因子分布在試驗(yàn)組之間存在強(qiáng)烈差異時(shí),該效應(yīng)尤其明顯。

問題和建議:
?我們建議使用scran對(duì)非全長數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化。
另一種方法是通過scone評(píng)估基于平臺(tái)的數(shù)據(jù)集的標(biāo)準(zhǔn)化方法。全長scRNA-seq協(xié)議可以使用bulk 方法修正基因長度。
?對(duì)于將基因的均值和單位方差縮放到0沒有共識(shí)。
我們寧愿不縮放基因表達(dá)(We prefer not to scale gene expression.)。
?規(guī)范化的數(shù)據(jù)應(yīng)該是log(x+1)-轉(zhuǎn)換后用于假設(shè)數(shù)據(jù)是正態(tài)分布的下游分析方法。

Data correction and integration

如上所述的標(biāo)準(zhǔn)化試圖消除計(jì)數(shù)采樣的影響。但是,歸一化數(shù)據(jù)仍可能包含不希望的變異性。數(shù)據(jù)進(jìn)一步的校正針對(duì)技術(shù)和生物學(xué)變量,如批次、脫落或細(xì)胞周期效應(yīng)。這些變量并不總是進(jìn)行校正。相反,決定考慮哪些變量將取決于預(yù)期的下游分析。我們建議分別考慮生物和技術(shù)變量的校正,因?yàn)檫@些變量用于不同的目的,并且存在獨(dú)特的挑戰(zhàn)。

Regressing out biological effects

校正技術(shù)變量(covariates)對(duì)于揭示潛在生物信號(hào)至關(guān)重要,校正生物變量對(duì)于挑選出關(guān)注的特定生物信號(hào)更加重要。最常見的生物數(shù)據(jù)校正是去除細(xì)胞周期對(duì)轉(zhuǎn)錄組的影響。該數(shù)據(jù)校正可通過 Scanpy 和 Seurat 平臺(tái) (Butler et al,2018;Wolf et al,2018) 或具有更復(fù)雜混合模型(如 scLVM (Buettner et al,2015) 或 fscLVM (Buettner et al,2017))的專門包裝中實(shí)施的細(xì)胞周期評(píng)分的簡單線性回歸進(jìn)行。用于計(jì)算細(xì)胞周期評(píng)分的標(biāo)記基因列表來自文獻(xiàn) (Macosko et al,2015)。這些方法也可用于回歸其他已知的生物學(xué)效應(yīng)如線粒體基因表達(dá),其被解釋為細(xì)胞應(yīng)激的指征。

在校正生物學(xué)效應(yīng)數(shù)據(jù)之前,應(yīng)考慮幾個(gè)方面。

  • 首先,校正生物學(xué)變量并不總是有助于解讀 scRNA-seq 數(shù)據(jù)。雖然去除細(xì)胞周期效應(yīng)可改善發(fā)育軌跡的推斷 (Buettner et al,2015;Vento-Tormo et al,2018),但細(xì)胞周期信號(hào)也可提供生物學(xué)信息。例如,可根據(jù)細(xì)胞周期評(píng)分確定增殖細(xì)胞群(參見 github 項(xiàng)目的個(gè)案研究)。
  • 生物信號(hào)必須在語境中理解。鑒于生物過程發(fā)生在同一生物體內(nèi),這些過程之間存在依賴性。因此,糾正一個(gè)過程可能無意中掩蓋另一個(gè)過程的信號(hào)。
  • 最后,有人認(rèn)為,細(xì)胞大小的變化解釋了通常歸因于細(xì)胞周期的轉(zhuǎn)錄組效應(yīng) (McDavid et al,2016)。因此,通過標(biāo)準(zhǔn)化校正細(xì)胞大小,或?qū)S霉ぞ呷?cgCorrect (Blasi et al,2017),也部分校正了 scRNA-seq 數(shù)據(jù)中的細(xì)胞周期影響。
Regressing out technical effects

用于回歸生物學(xué)變量的回歸模型變量也可應(yīng)用于技術(shù)變量。單細(xì)胞數(shù)據(jù)中最顯著的技術(shù)變量是計(jì)數(shù)深度和批次。盡管標(biāo)準(zhǔn)化比例計(jì)數(shù)數(shù)據(jù)使細(xì)胞之間的基因計(jì)數(shù)相當(dāng),但計(jì)數(shù)深度效應(yīng)通常保留在數(shù)據(jù)中。這種計(jì)數(shù)深度效應(yīng)既可以是生物的,也可以是技術(shù)的。例如,細(xì)胞可能大小不同,因此 mRNA 分子計(jì)數(shù)也不同。然而,歸一化后的技術(shù)計(jì)數(shù)效應(yīng)可能仍然存在,因?yàn)闆]有縮放方法可以推斷由于采樣不佳而未檢測(cè)到的基因的表達(dá)值?;貧w出計(jì)數(shù)深度效應(yīng)可以提高軌跡推理算法的性能,它依賴于找到cell之間的轉(zhuǎn)換(參見 project github 的案例研究)。當(dāng)校正多個(gè)變量(例如,細(xì)胞周期和計(jì)數(shù)深度)時(shí),應(yīng)在一個(gè)步驟中對(duì)所有變量進(jìn)行回歸,以考慮變量之間的依賴性。

另一種基于回歸的消除計(jì)數(shù)影響的策略是使用更嚴(yán)格的標(biāo)準(zhǔn)化過程,如下采樣或非線性標(biāo)準(zhǔn)化方法(參見標(biāo)準(zhǔn)化部分)。這些方法可能特別適用于基于平板(plate-based )的 scRNA-seq 數(shù)據(jù)集,其中每個(gè)細(xì)胞計(jì)數(shù)深度的較大變化可以掩蓋細(xì)胞之間的異質(zhì)性。

Batch effects and data integration

當(dāng)細(xì)胞以不同的分組處理時(shí),可能發(fā)生批次效應(yīng)。批次效應(yīng)可以由不同芯片上的細(xì)胞、不同測(cè)序泳道中的細(xì)胞或不同時(shí)間收獲的細(xì)胞組成。細(xì)胞經(jīng)歷的不同環(huán)境會(huì)對(duì)轉(zhuǎn)錄組的測(cè)量或轉(zhuǎn)錄組本身產(chǎn)生影響。產(chǎn)生的影響存在于多個(gè)層面:實(shí)驗(yàn)中的細(xì)胞組之間、在同一實(shí)驗(yàn)室進(jìn)行的實(shí)驗(yàn)之間或來自不同實(shí)驗(yàn)室的數(shù)據(jù)集之間。

在這里,我們區(qū)分前兩個(gè)和后兩個(gè)場(chǎng)景。

  • 在相同的實(shí)驗(yàn)中校正樣品或細(xì)胞之間的批次效應(yīng)是經(jīng)典的來自 bulk RNA-seq 的批次校正(Batch effects)。
  • 我們將這與多次實(shí)驗(yàn)的數(shù)據(jù)整合區(qū)分開來,我們稱之為數(shù)據(jù)整合(data integration)。雖然批效應(yīng)通常使用線性方法校正,但一般使用非線性方法進(jìn)行數(shù)據(jù)整合。

最近對(duì)經(jīng)典批次校正方法的比較顯示,ComBat (Johnson et al,2006) 在低至中等復(fù)雜度的單細(xì)胞實(shí)驗(yàn)中也表現(xiàn)良好 (Buttner et al,2019)。ComBat 由基因表達(dá)的線性模型組成,其中在數(shù)據(jù)的平均值和方差中均考慮了批次貢獻(xiàn)(圖 3)。不考慮計(jì)算方法,**批量校正的最佳方法是通過巧妙的實(shí)驗(yàn)設(shè)計(jì)預(yù)先消除影響并完全避免影響 **(Hicks et al,2017)。通過合并實(shí)驗(yàn)條件和樣品中的細(xì)胞,可避免批次效應(yīng)。使用諸如細(xì)胞標(biāo)記 (preprint:Gehring et al,2018) 或通過遺傳變異 (Kang et al,2018) 等策略,可能分離實(shí)驗(yàn)中合并的細(xì)胞。

圖3。批次校正前后的UMAP可視化。 細(xì)胞按樣本著色。批次的分離在批次校正前清晰可見,批次校正后不明顯。批次校正使用 Haber等(2017)對(duì)小鼠腸道上皮細(xì)胞的影響。

與批次校正相比,面臨的另一個(gè)挑戰(zhàn)是整合不同的數(shù)據(jù)集。估計(jì)批效應(yīng)時(shí),ComBat 使用一批中的所有細(xì)胞來擬合批次參數(shù)。這種方法將混淆批處理效應(yīng)與細(xì)胞類型或數(shù)據(jù)集之間不相同狀態(tài)之間的生物學(xué)差異。為克服該問題,開發(fā)了典型相關(guān)分析 (CCA;Butler et al,2018)、相互最近鄰 (MNN;Haghverdi et al,2018)、Scanorama(預(yù)?。篐ie et al,2018)、RISC(預(yù)?。篖iu et al,2018)、scGen(預(yù)?。篖otfollahi et al,2018)、LIGER(預(yù)印:Welch et al,2018)、BBKNN(預(yù)打?。篜ark et al,2018)和 Harmony(預(yù)打印:Korsunsky et al,2018)等數(shù)據(jù)整合方法。數(shù)據(jù)整合方法雖然也可以應(yīng)用于簡單的批次校正問題,但考慮到非線性數(shù)據(jù)集成方法的自由度增加,我們建議警惕過度修正。例如,在更簡單的批次校正設(shè)置中,MNN 的表現(xiàn)優(yōu)于 ComBat (Buttner et al,2019)。需要對(duì)數(shù)據(jù)整合和批次校正方法進(jìn)行進(jìn)一步比較研究,以評(píng)估這些方法的應(yīng)用范圍。

Expression recovery

另一種類型的技術(shù)數(shù)據(jù)校正是表達(dá)恢復(fù)(expression recovery)(也就是去噪或插補(bǔ))。單細(xì)胞轉(zhuǎn)錄組的測(cè)量包含各種噪聲 (Gru net al,2014;Kharchenko et al,2014;Hicks et al,2017)。這種噪音的一個(gè)特別突出的方面是dropout。推斷dropout事件,用合適的表達(dá)值替換這些零,減少數(shù)據(jù)集中的噪聲,一直是幾個(gè)最新工具(MAGIC:van Dijk et al,2018;DCA:Eraslan et al,2019;scVI:Lopez et al,2018;SAVER:Huang et al,2018;scImpute:Li& Li, 2018).已證明執(zhí)行表達(dá)恢復(fù)可改善基因相關(guān)性估計(jì) (van Dijk et al,2018;Eraslan et al,2019)。此外,該步驟可與歸一化、批次校正和 scVI 工具中實(shí)施的其他下游分析整合 (Lopez et al,2018)。雖然大多數(shù)數(shù)據(jù)校正方法以歸一化數(shù)據(jù)作為輸入,但一些表達(dá)式恢復(fù)方法是基于預(yù)期負(fù)二項(xiàng)分布噪聲,因此在原始計(jì)數(shù)數(shù)據(jù)上運(yùn)行。應(yīng)用表達(dá)恢復(fù)時(shí),應(yīng)考慮到?jīng)]有一種方法是完美的。因此,任何方法均可能導(dǎo)致數(shù)據(jù)中的噪聲過度校正或校正不足。事實(shí)上,表達(dá)恢復(fù)的結(jié)果報(bào)告了假相關(guān)信號(hào)(Andrews & Hemberg, 2018).考慮到在實(shí)際應(yīng)用中評(píng)估成功的表達(dá)恢復(fù)的難度,這個(gè)場(chǎng)景對(duì)考慮是否消噪的用戶來說是一個(gè)挑戰(zhàn)。此外,對(duì)于當(dāng)前可用的表達(dá)式恢復(fù)方法,大型數(shù)據(jù)集的可伸縮性仍然是一個(gè)問題。鑒于這些考慮,目前對(duì)于如何使用消噪數(shù)據(jù)尚未達(dá)成共識(shí)(見處理數(shù)據(jù)章節(jié)的階段)。謹(jǐn)慎的方法是僅將表達(dá)恢復(fù)用于數(shù)據(jù)的直觀顯示,而不是在探索性數(shù)據(jù)分析過程中應(yīng)用之。這里徹底的實(shí)驗(yàn)驗(yàn)證尤為重要。

問題和建議:
?回歸出(Regress out )生物變量只是為了軌跡推斷,其他生物過程被沒有回歸出的生物協(xié)變量所掩蓋。
?同時(shí)考慮回歸技術(shù)和生物變量,而不是針對(duì)某項(xiàng)回歸。
?基于平臺(tái)的數(shù)據(jù)預(yù)處理可能需要回歸計(jì)數(shù),通過非線性歸一化方法進(jìn)行歸一化或向下采樣。
?當(dāng)cell類型和批次之間的狀態(tài)成分一致時(shí),我們建議通過ComBat進(jìn)行批次校正
?數(shù)據(jù)整合和批次校正應(yīng)通過不同方法進(jìn)行。數(shù)據(jù)集成工具可能過度糾正簡單的批處理效應(yīng)。
?用戶應(yīng)謹(jǐn)慎對(duì)待僅在表達(dá)恢復(fù)后發(fā)現(xiàn)的信號(hào)。最好不使用該步驟進(jìn)行探索性分析。

Feature selection, dimensionality reduction and visualization

一個(gè)人類的單細(xì)胞 RNA-seq 數(shù)據(jù)集可以包含多達(dá) 25,000 個(gè)基因的表達(dá)值。這些基因中的許多基因?qū)τ诮o定的 scRNA-seq 數(shù)據(jù)集不會(huì)提供有價(jià)值的信息,許多基因?qū)⒋蟛糠职阌?jì)數(shù)。即使在 QC 步驟中過濾掉這些零計(jì)數(shù)基因后,單細(xì)胞數(shù)據(jù)集的特征空間也可以有超過 15000 個(gè)維度。為了減輕下游分析工具的計(jì)算負(fù)擔(dān),減少數(shù)據(jù)中的噪聲,并使數(shù)據(jù)可視化,可以使用幾種方法降低數(shù)據(jù)集的維數(shù)。

Feature selection

scRNA-seq 數(shù)據(jù)集降維的第一步通常是特征選擇。在此步驟中,將篩選數(shù)據(jù)集僅保留可提供數(shù)據(jù)變異性信息的基因。因此,通常使用高度可變基因 (HVG) (Brennecke et al,2013)。根據(jù)任務(wù)和數(shù)據(jù)集的復(fù)雜性,通常選擇 1,000 至 5,000 個(gè) HVG 用于下游分析(見圖 EV1 和數(shù)據(jù)集 EV1)。Klein et al (2015) 的初步結(jié)果表明,下游分析對(duì) HVG 數(shù)量的準(zhǔn)確選擇具有穩(wěn)健性。在 200 到 2400 之間變化 HVGs 數(shù)量時(shí),作者報(bào)告了 PCA 空間中類似的低維表示?;谶@一結(jié)果,我們寧愿選擇更高數(shù)量的HVGs。

Dimensionality reduction

特征選擇后,單細(xì)胞表達(dá)矩陣的維數(shù)可以通過專門的降維算法進(jìn)一步降低。這些算法將表達(dá)式矩陣嵌入到一個(gè)低維空間中,目的是在盡可能少的維度中捕獲數(shù)據(jù)中的底層結(jié)構(gòu)。這種方法的工作原理是單細(xì)胞 RNA-seq 數(shù)據(jù)本身就是低維的 (Heimberg et al,2016)。換句話說,細(xì)胞表達(dá)譜所在的生物流形可以用比基因數(shù)量少得多的維度來充分描述。降維旨在找出這些維度。

降維方法主要有兩個(gè)目標(biāo):可視化和提取主要變化??梢暬菄L試以二維或三維的方式對(duì)數(shù)據(jù)集進(jìn)行最佳描述。這些縮小的尺寸用作散點(diǎn)圖上的坐標(biāo),以獲得數(shù)據(jù)的直觀表示。相反,對(duì)于描述數(shù)據(jù)中存在的變異性,較高的組分變得不太重要。摘要技術(shù)可以通過找到數(shù)據(jù)的固有維數(shù),將數(shù)據(jù)簡化為其基本組成部分,因此有助于下游分析。雖然 2 維可視化輸出不應(yīng)用于匯總數(shù)據(jù)集,但可以使用匯總方法,使用領(lǐng)先的縮減組件對(duì)數(shù)據(jù)進(jìn)行可視化,專門的可視化技術(shù)通??梢愿玫乇硎咀儺愋?。

通過特征空間維度(基因表達(dá)載體)的線性或非線性組合減少維度。特別是在非線性的情況下,在這個(gè)過程中犧牲了降維的可解釋性。一些常用的降維方法的應(yīng)用示例如圖 4 所示。隨著越來越多的方法可供選擇,詳細(xì)回顧這些方法超出了本教程的范圍。我們簡要概述了可能幫助用戶在常用降維方法之間進(jìn)行選擇的實(shí)際考慮。Moon et al (2018) 提供了單細(xì)胞分析降維的更詳細(xì)綜述。

圖 4. scRNA-seq 數(shù)據(jù)的常見可視化方法。mhaber et al (2017) 提供的小鼠腸上皮區(qū)域數(shù)據(jù)顯示了前兩個(gè)組件:(A) PCA,(B) t-SNE,(C) 擴(kuò)散圖,(D) UMAP 和 (E) 通過 ForceAtlas 2 的力導(dǎo)向圖布局。根據(jù)計(jì)數(shù)深度對(duì)細(xì)胞進(jìn)行染色。(F) 前 31 個(gè)主成分 (PC) 解釋的方差。該圖用于選擇相關(guān) PC 分析數(shù)據(jù)集,位于 PC 5 和 7 之間。

兩種流行的降維技術(shù)(主要是總結(jié)方法)是主成分分析 (PCA;Pearson,1901) 和擴(kuò)散圖(diffusion maps )(Coifman 等,2005),Haghverdi 等 (2015) 推廣用于單細(xì)胞分析。主成分分析是一種線性方法,通過最大化每個(gè)進(jìn)一步維度中捕獲的殘差來生成降維。盡管 PCA 并不像非線性方法那樣能夠捕獲很少維度的數(shù)據(jù)結(jié)構(gòu),但它是目前許多可用的聚類或軌跡推斷分析工具的基礎(chǔ)。PCA 是一種常用的非線性降維預(yù)處理方法。通常,PCA 通過其前 N 個(gè)主成分匯總數(shù)據(jù)集,其中 N 可以通過肘部啟發(fā)式(見圖 4F)或基于置換測(cè)試的 jackstraw 方法(Chung Storey, 2015; Macosko et al, 2015).PCA 的簡單線性的優(yōu)點(diǎn)是在減少的維空間距離在這個(gè)空間的所有區(qū)域有一致的解釋。因此,我們可以將感興趣的數(shù)量與主成分相關(guān)聯(lián)來評(píng)估它們的重要性。例如,主成分可以投影到技術(shù)干擾協(xié)變量上,以研究 QC 的性能、數(shù)據(jù)校正和標(biāo)準(zhǔn)化步驟 (Buttner et al,2019),或顯示基因在數(shù)據(jù)集中的重要性 (Chung et al,2019)。由于擴(kuò)散成分強(qiáng)調(diào)的是數(shù)據(jù)中的轉(zhuǎn)換,它們主要用于連續(xù)過程(如差異)感興趣的情況。通常,每個(gè)擴(kuò)散組分(即擴(kuò)散圖維度)突出顯示不同細(xì)胞群的異質(zhì)性。

Visualization

出于可視化目的,使用非線性降維方法是標(biāo)準(zhǔn)實(shí)踐(圖 4)。scRNA-seq 可視化最常用的降維方法是 t 分布隨機(jī)鄰域嵌入(t-SNE;van derMaaten & Hinton, 2008)。t-SNE 降維以全局結(jié)構(gòu)為代價(jià)來獲取局部相似性。因此,這些可視化可能夸大細(xì)胞群體之間的差異,并忽略這些群體之間的潛在聯(lián)系。另一個(gè)困難是選擇其復(fù)雜度參數(shù),因?yàn)?t-SNE 圖可能顯示不同數(shù)值的簇 (Wattenberg et al,2016)。t-SNE 常用的替代方法是UMAP(預(yù)本: McInnes & Healy, 2018) 或者基于圖的工具,如 SPRING (Weinreb et al,2018)。UMAP 和彈簧力導(dǎo)向布局算法 ForceAtlas2 可以說是底層拓?fù)涞淖罴呀浦担╓olf et al,2019,Supplemental Note 4)。該比較中 UMAP 的不同之處在于其擴(kuò)展至大量細(xì)胞的速度和能力 (Becht et al,2018)。因此,在沒有特殊生物學(xué)問題的情況下,我們將 UMAP 視為探索性數(shù)據(jù)可視化的最佳實(shí)踐。而且,UMAP 還可以在兩個(gè)以上維度匯總數(shù)據(jù)。雖然我們不知道 UMAP 在數(shù)據(jù)匯總中的任何應(yīng)用,但它可能證明是 PCA 的合適替代方法。

細(xì)胞水平上經(jīng)典可視化的替代方法是基于分區(qū)的圖形抽象 (PAGA;Wolf et al,2019)。該工具已被證明可以充分近似數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu),同時(shí)使用集群粗?;梢暬?。結(jié)合上述任何一種可視化方法,PAGA 都會(huì)產(chǎn)生粗粒度的可視化,這可以簡化單細(xì)胞數(shù)據(jù)的解釋,尤其是用大量細(xì)胞的時(shí)候。

問題和建議:
?我們建議根據(jù)數(shù)據(jù)集的復(fù)雜性選擇1000到5000個(gè)高度可變的基因。
?當(dāng)基因表達(dá)值被歸一化為零均值和單位方差時(shí),或當(dāng)模型擬合的殘差被歸一化表達(dá)值時(shí),不能使用使用基因表達(dá)均值和方差的特征選擇方法。因此,在選擇HVGs之前,必須考慮要進(jìn)行什么預(yù)處理。
?應(yīng)分別考慮降維方法進(jìn)行總結(jié)和可視化。
?我們推薦使用 UMAP 進(jìn)行探索性可視化;使用 PCA 進(jìn)行一般性總結(jié);使用擴(kuò)散圖替代 PCA 進(jìn)行軌跡推斷總結(jié)。
?具有 UMAP 的 PAGA 是可視化特別復(fù)雜數(shù)據(jù)集的合適替代方案。

Stages of pre-processed data

雖然我們已經(jīng)將 scRNAseq 中常見的預(yù)處理步驟概述為上述工作流程,但下游分析通常傾向于采用不同水平的預(yù)處理數(shù)據(jù),建議根據(jù)下游應(yīng)用調(diào)整預(yù)處理。為了向新用戶闡明這種情況,我們將預(yù)處理劃分為 5 個(gè)數(shù)據(jù)處理階段:

  • (i) 原始數(shù)據(jù),
  • (ii) 標(biāo)準(zhǔn)化數(shù)據(jù),
  • (iii) 校正數(shù)據(jù),
  • (iv) 特征選擇數(shù)據(jù),
  • (v) 降維數(shù)據(jù)。

這些數(shù)據(jù)處理階段分為三個(gè)預(yù)處理層:

  • 測(cè)量數(shù)據(jù)、
  • 校正數(shù)據(jù)和
  • 縮減數(shù)據(jù)(降維)。

應(yīng)始終進(jìn)行細(xì)胞和基因 QC,因此從此處省略。而這些處理層的順序代表了 scRNA-seq 分析中的典型工作流程,也可以跳過某個(gè)處理層或者在處理階段的順序上有輕微的改變。例如,對(duì)于單批數(shù)據(jù)集,可能不需要進(jìn)行數(shù)據(jù)校正。在表 1 中,我們總結(jié)了每一層預(yù)處理數(shù)據(jù)的適當(dāng)下游應(yīng)用。

表1

表 1 預(yù)處理階段分為實(shí)測(cè)數(shù)據(jù)、校正數(shù)據(jù)和縮減數(shù)據(jù) 3 組。我們將測(cè)量數(shù)據(jù)定義為原始數(shù)據(jù)和保留零結(jié)構(gòu)的處理數(shù)據(jù)。通過使用cell特定因子縮放計(jì)數(shù)數(shù)據(jù),全局縮放規(guī)范化方法即使在 log (+ 1)轉(zhuǎn)換之后也保留 0 表達(dá)值。相反,糾正不需要的變異性數(shù)據(jù)替代零表達(dá)值。校正后的數(shù)據(jù)層代表數(shù)據(jù)的最干凈版本,是基礎(chǔ)生物信號(hào)的最接近近似值。我們稱最后的預(yù)處理層為縮減數(shù)據(jù)。該數(shù)據(jù)層強(qiáng)調(diào)數(shù)據(jù)的主要方面,可以使用簡化的功能集進(jìn)行描述。

上述特征決定了預(yù)處理數(shù)據(jù)對(duì)于特定下游應(yīng)用的適用性。作為最后的預(yù)處理階段,縮減數(shù)據(jù)將是廣泛適用的數(shù)據(jù)層的候選。然而,差異表達(dá)檢測(cè)僅在基因空間中進(jìn)行生物學(xué)解釋,未(完全)用簡化數(shù)據(jù)表示。約簡數(shù)據(jù)的作用在于生物學(xué)的總結(jié)和噪聲的減少,可能掩蓋生物信號(hào)。因此,縮減數(shù)據(jù)用于需要數(shù)據(jù)總結(jié)(可視化、鄰域圖推理、聚類)的探索性方法和計(jì)算復(fù)雜的下游分析工具(軌跡推理)。的確,許多軌跡推理方法在工具本身中加入了降維過程。

單個(gè)基因的表達(dá)譜只能在基因空間中進(jìn)行比較,在測(cè)量和校正數(shù)據(jù)中捕獲。表達(dá)譜的比較可以通過可視化和統(tǒng)計(jì)學(xué)進(jìn)行。我們認(rèn)為應(yīng)該對(duì)不同的數(shù)據(jù)層進(jìn)行可視化和統(tǒng)計(jì)比較?;虮磉_(dá)的目測(cè)檢查,校正數(shù)據(jù)最為合適。如果提供原始數(shù)據(jù)進(jìn)行可視化比較,則要求用戶固有地理解數(shù)據(jù)中的偏倚,以解釋結(jié)果,校正數(shù)據(jù)有助于這種解釋。然而,此處應(yīng)單獨(dú)考慮技術(shù)和生物學(xué)變量的校正數(shù)據(jù)。對(duì)生物變量的校正可能增加特定生物信號(hào)的強(qiáng)度,也將掩蓋可能相關(guān)的其他信號(hào)。因此,生物校正數(shù)據(jù)主要適用于關(guān)注特定生物過程(如軌跡推理方法)的分析工具。

基因表達(dá)的統(tǒng)計(jì)學(xué)比較在測(cè)量數(shù)據(jù)層上最合適。沒有完美的數(shù)據(jù)校正方法可用于消噪、批次校正或其他變異來源的校正。因此,數(shù)據(jù)校正方法不可避免地對(duì)數(shù)據(jù)進(jìn)行了過高或過低的校正,因此以一種非預(yù)期的方式改變了至少一些基因表達(dá)譜的方差。基因表達(dá)的統(tǒng)計(jì)檢驗(yàn)依賴于評(píng)估背景方差,作為數(shù)據(jù)中噪聲的無效模型。由于數(shù)據(jù)校正傾向于減少背景變異(圖 EV2),背景變異被數(shù)據(jù)校正方法過度校正的基因?qū)⒏赡鼙辉u(píng)估為顯著差異表達(dá)。此外,某些數(shù)據(jù)校正方法(例如 ComBat)將不符合實(shí)驗(yàn)設(shè)計(jì)的表達(dá)信號(hào)解釋為噪聲,隨后從數(shù)據(jù)中刪除。除了低估噪聲外,這種實(shí)驗(yàn)設(shè)計(jì)信號(hào)的優(yōu)化會(huì)導(dǎo)致高估效應(yīng)量。鑒于這些考慮,使用測(cè)量數(shù)據(jù)作為輸入,而不是使用校正數(shù)據(jù),構(gòu)成了對(duì)差異試驗(yàn)更保守的方法。使用測(cè)量數(shù)據(jù),在差異檢驗(yàn)?zāi)P椭锌梢圆⑶覒?yīng)該考慮技術(shù)變量。

上述觀點(diǎn)得到了最近一次scRNA-seq差異分析方法比較的支持,該方法僅使用原始數(shù)據(jù)和規(guī)范化數(shù)據(jù)作為輸入(Soneson & Robinson, 2018)。本研究使用的歸一化數(shù)據(jù)僅圍繞全局標(biāo)度方法。然而,目前許多可用的非線性歸一化方法模糊了歸一化和數(shù)據(jù)校正之間的界限(參見“歸一化”一節(jié))。這種標(biāo)準(zhǔn)化的數(shù)據(jù)可能不再適合作為差異分析的輸入。

問題和建議:
?使用測(cè)量數(shù)據(jù)(measured data)進(jìn)行統(tǒng)計(jì)檢驗(yàn),根據(jù)發(fā)現(xiàn)的生物數(shù)據(jù)流形,對(duì)數(shù)據(jù)進(jìn)行可視化比較時(shí)使用修正數(shù)據(jù)(corrected data ),對(duì)其他下游分析時(shí)使用簡化數(shù)據(jù)( reduced data )。

Downstream analysis

預(yù)處理后,我們稱之為下游分析的方法被用于提取生物學(xué)見解并描述潛在的生物學(xué)系統(tǒng)。這些描述是通過擬合數(shù)據(jù)的可解釋模型獲得的。這些模型的例子是

  • 具有相似基因表達(dá)譜的細(xì)胞群代表細(xì)胞類型簇;
  • 相似細(xì)胞之間基因表達(dá)的微小變化表示連續(xù)(分化)軌跡;
  • 或具有相關(guān)表達(dá)譜的基因表明其共同調(diào)節(jié)作用。

下游分析可分為細(xì)胞水平和基因水平的方法,如圖 5 所示。細(xì)胞水平的分析通常集中于兩種結(jié)構(gòu)的描述:簇和軌跡。這些結(jié)構(gòu)又可以在細(xì)胞和基因水平上進(jìn)行分析,從而形成聚類分析和軌跡分析方法。

圖 5. 下游分析方法概述。方法分為細(xì)胞水平和基因水平分析。細(xì)胞水平分析方法再次細(xì)分為聚類分析和軌跡分析分支,這也包括基因水平分析方法。所有藍(lán)色背景的方法都是基因水平的方法。

大體上,聚類分析方法試圖根據(jù)細(xì)胞的聚類來解釋數(shù)據(jù)的異質(zhì)性。相比之下,在軌跡分析中,數(shù)據(jù)被視為動(dòng)態(tài)過程的快照映射。在這里,我們描述了細(xì)胞和基因水平的群集和軌跡分析工具,在詳細(xì)描述獨(dú)立于這些細(xì)胞結(jié)構(gòu)進(jìn)行的基因水平分析之前。

Cluster analysis

將細(xì)胞聚類通常是任何單細(xì)胞分析的第一個(gè)中間結(jié)果,簇允許我們推斷細(xì)胞類型。根據(jù)細(xì)胞基因表達(dá)譜的相似性對(duì)細(xì)胞進(jìn)行分組,得到細(xì)胞簇。通過距離度量來確定表達(dá)譜相似性,通常將降維結(jié)果作為輸入。相似性評(píng)分的一個(gè)常見示例是歐幾里德距離,該距離在 PC 縮減的表達(dá)空間上計(jì)算。目前主要有兩種方法聚類產(chǎn)生細(xì)胞簇:聚類算法和社區(qū)檢測(cè)算法(community detection)。

聚類是一種經(jīng)典的無監(jiān)督機(jī)器學(xué)習(xí)方法,直接基于距離矩陣。通過最小化簇內(nèi)距離或在減少的表達(dá)空間中找到致密區(qū)域,將細(xì)胞分配給 clusers。流行的 k-means 聚類算法通過確定簇中心并將細(xì)胞分配到最近的簇中心,迭代優(yōu)化質(zhì)心位置,將細(xì)胞分為 k 個(gè)簇(MacQueen,1967)。這種方法需要輸入預(yù)期的簇?cái)?shù)量,通常是未知的,必須進(jìn)行啟發(fā)式校準(zhǔn)。k-means 應(yīng)用于單細(xì)胞數(shù)據(jù)的距離指標(biāo)各不相同。標(biāo)準(zhǔn)歐氏距離的替代方法包括余弦相似性 (Haghverdi et al,2018)、基于相關(guān)性的距離度量 (Kim et al,2018) 或 SIMLR 方法,該方法使用高斯核學(xué)習(xí)每個(gè)數(shù)據(jù)集的距離度量 (Wang et al,2017)。最近的一項(xiàng)比較表明,當(dāng)使用 k-means或作為高斯核的基礎(chǔ)時(shí),基于相關(guān)的距離可能優(yōu)于其他距離指標(biāo) (Kim et al,2018)。

社區(qū)檢測(cè)方法是圖聚類算法(graph-partitioning algorithms),依賴于單細(xì)胞數(shù)據(jù)的圖表示。這個(gè)圖的表示是使用 K 最近鄰方法(KNN 圖)。圖中將細(xì)胞表示為節(jié)點(diǎn),每個(gè)細(xì)胞與其 K 個(gè)最相似的細(xì)胞相連,這些細(xì)胞通常使用歐氏距離在 PC 縮減的表達(dá)空間上獲得。根據(jù)數(shù)據(jù)集的大小,K 通常設(shè)置在 5 到 100 個(gè)最近的鄰居之間。所得圖表獲取了表達(dá)數(shù)據(jù)的基礎(chǔ)拓?fù)浣Y(jié)構(gòu) (Wolf et al,2019)。表達(dá)空間的密集采樣區(qū)域表示為圖的密集連通區(qū)域。使用社區(qū)檢測(cè)方法檢測(cè)這些密集區(qū)。社區(qū)檢測(cè)通常比一般的聚類更快,因?yàn)橹挥邢噜彽募?xì)胞對(duì)必須被認(rèn)為屬于同一個(gè)集群。這種方法大大減少了可能群的搜索空間。

在首創(chuàng)表型法(PhenoGraph method) (Levine et al,2015) 后,單細(xì)胞數(shù)據(jù)集的標(biāo)準(zhǔn)聚類方法已成為多分辨率模塊優(yōu)化(Newman & Girvan,2004;如Louvain算法(Blondel et al, 2008)實(shí)現(xiàn)在單細(xì)胞KNN圖上。已經(jīng)成為Scanpy和Seurat單細(xì)胞分析平臺(tái)中默認(rèn)聚類的方法。已有研究表明,它在單細(xì)胞RNA- seq數(shù)據(jù)聚類方面優(yōu)于其他聚類方法(Duo ' et al, 2018;(Freytag et al, 2018)。

從概念上講,Louvain 算法將社區(qū)檢測(cè)為一組單元,它們之間的鏈接比從單元的總鏈接數(shù)預(yù)期的要多。優(yōu)化的模塊功能包含一個(gè)解析參數(shù),允許用戶確定集群分區(qū)的規(guī)模。通過子集 KNN 圖,也可以只對(duì)特定的集群進(jìn)行子集。這樣的子聚類可以允許用戶識(shí)別細(xì)胞類型聚類內(nèi)的細(xì)胞狀態(tài) (Wagner et al,2016),但也可能導(dǎo)致僅來自數(shù)據(jù)噪聲的模式。

問題和建議:
?我們建議在單細(xì)胞KNN圖上通過Louvain社區(qū)檢測(cè)進(jìn)行聚類。
?聚類不需要在單個(gè)分辨率下執(zhí)行。
特定的cell群是關(guān)注數(shù)據(jù)集中更詳細(xì)的子結(jié)構(gòu)的有效方法。

Cluster annotation

在基因水平上,通過尋找每個(gè)聚類的基因特征對(duì)聚類數(shù)據(jù)進(jìn)行分析。這些所謂的標(biāo)記基因(marker genes)表征了該簇,并被用來用一個(gè)有意義的生物學(xué)標(biāo)簽來注釋它,該標(biāo)簽代表細(xì)胞簇內(nèi)細(xì)胞的身份。由于任何聚類算法都會(huì)產(chǎn)生數(shù)據(jù)的分區(qū),所以只有成功注釋所代表的生物學(xué)才能確定所識(shí)別的聚類的有效性。

雖然可以假設(shè)在單細(xì)胞數(shù)據(jù)中檢測(cè)到的簇代表細(xì)胞類型,但有幾個(gè)變異軸決定了細(xì)胞同一性 (Wagner et al,2016;Clevers et al,2017)。首先,并不總是清楚什么是細(xì)胞類型。例如,雖然 T 細(xì)胞可能是某些細(xì)胞類型的滿意標(biāo)記,但其他細(xì)胞可能在數(shù)據(jù)集中尋找 T 細(xì)胞亞型并區(qū)分 CD4 和 CD8 T 細(xì)胞 (Wagner et al,2016;Clevers et al,2017)。此外,相同細(xì)胞類型的細(xì)胞在不同狀態(tài)下可在單獨(dú)的簇中檢測(cè)到。由于上述原因,最好使用術(shù)語細(xì)胞身份(cell identities)而不是細(xì)胞類型(cell types)。在分群和注釋群之前,用戶必須決定哪一級(jí)別的注釋細(xì)節(jié),從而決定哪一級(jí)集群的分辨率。

識(shí)別和注釋簇依賴于使用描述單個(gè)細(xì)胞身份預(yù)期表達(dá)譜的外部信息來源。感謝最近和正在進(jìn)行的努力,如小鼠大腦圖譜 (Zeisel et al,2018) 或人類細(xì)胞圖譜 (Regev et al, 2017),可用的參考數(shù)據(jù)庫越來越多。這些數(shù)據(jù)庫極大地方便了細(xì)胞身份注釋。在沒有相關(guān)參考數(shù)據(jù)庫的情況下,可以通過比較數(shù)據(jù)來源的標(biāo)記基因與來自文獻(xiàn)的標(biāo)記基因(見 project github 的案例研究)或直接可視化文獻(xiàn)來源的標(biāo)記基因的表達(dá)值(圖 6B)來注釋細(xì)胞身份。應(yīng)該注意的是,后一種方法將用戶限制在對(duì)來源于表達(dá)研究的細(xì)胞類型的經(jīng)典理解,而不是細(xì)胞身份。此外,研究表明,常用的細(xì)胞表面標(biāo)志物定義細(xì)胞特性的能力有限 (Tabula Muris Consortium et al,2018)。

圖 6. Haber (2017) 小鼠腸上皮數(shù)據(jù)集的聚類分析結(jié)果。(A) 由Louvain聚類發(fā)現(xiàn)的帶注釋的細(xì)胞識(shí)別簇,在 UMAP 表示中可視化。(B) 細(xì)胞識(shí)別標(biāo)記物表達(dá),以鑒定干細(xì)胞 (Slc12a2)、腸細(xì)胞 (Arg2)、杯狀細(xì)胞 (Tff3) 和潘氏細(xì)胞 (Defa24)。從低表達(dá)(灰色)到高表達(dá)(紅色)可視化校正表達(dá)水平。如杯狀細(xì)胞和潘氏細(xì)胞所示,標(biāo)記基因也可能在其他細(xì)胞同一性群體中表達(dá)。近端(上)和遠(yuǎn)端(下)腸上皮區(qū)域的細(xì)胞-同一性組成熱圖。相對(duì)高細(xì)胞密度顯示為暗紅色。

使用參考數(shù)據(jù)庫信息注釋集群有兩種方式:使用數(shù)據(jù)來源的標(biāo)記基因或使用全基因表達(dá)譜??赏ㄟ^應(yīng)用兩組之間的差異表達(dá) (DE) 檢驗(yàn)找到標(biāo)記基因集:一組中的細(xì)胞和數(shù)據(jù)集中的所有其他細(xì)胞(參見差異表達(dá)檢驗(yàn))。典型的,我們集中在感興趣的簇中上調(diào)的基因。由于標(biāo)記基因預(yù)期具有較強(qiáng)的差異表達(dá)效應(yīng),因此通常使用簡單的統(tǒng)計(jì)檢驗(yàn),如 Wilcoxon 秩和檢驗(yàn)或 t 檢驗(yàn),通過基因在這兩組之間的表達(dá)差異進(jìn)行排序。將各檢驗(yàn)統(tǒng)計(jì)量中排名靠前的基因視為標(biāo)記基因。通過富集試驗(yàn)、Jaccard 指數(shù)或其他重疊統(tǒng)計(jì),比較數(shù)據(jù)集中的標(biāo)記基因和參考數(shù)據(jù)集中的標(biāo)記基因,可對(duì)聚類結(jié)果進(jìn)行注釋。引用 web 工具,如www.mousebrain.org(Zeisel et al,2018) 或http://dropviz.org/(Saunders et al,2018) 允許用戶可視化參考數(shù)據(jù)集中數(shù)據(jù)集標(biāo)記基因的表達(dá),以促進(jìn)細(xì)胞識(shí)別注釋。

檢測(cè)標(biāo)記基因時(shí)應(yīng)注意兩個(gè)方面。首先,標(biāo)記基因獲得的 P 值基于獲得的細(xì)胞簇代表實(shí)際生物學(xué)過程。如果考慮到聚類的不確定性,在統(tǒng)計(jì)檢驗(yàn)中必須考慮到聚類與標(biāo)記基因檢測(cè)的關(guān)系。由于聚類和標(biāo)記基因通常是基于相同的基因表達(dá)數(shù)據(jù)確定的。DE 檢驗(yàn)中隱含的無效假設(shè)是基因在兩組之間具有相同的表達(dá)值分布。然而,由于這兩組是由標(biāo)記基因檢測(cè)中的聚類方法的輸出定義的,它們的基因表達(dá)譜在設(shè)計(jì)上存在差異。因此,即使對(duì) splatter 生成的隨機(jī)數(shù)據(jù)進(jìn)行聚類,我們也發(fā)現(xiàn)了顯著的標(biāo)記基因 (Zappia et al,2017)(見附錄補(bǔ)充文本 S3)。為了在聚類數(shù)據(jù)中獲得一個(gè)合適的顯著性度量,可以使用置換檢驗(yàn)來解釋聚類步驟。本試驗(yàn)在附錄補(bǔ)充文本 S3 中詳細(xì)說明。最近的一種差異表達(dá)工具也專門解決了這一問題(預(yù)印:Zhang et al,2018)。在當(dāng)前設(shè)置下,P 值通常被夸大,這可能導(dǎo)致高估標(biāo)記基因的數(shù)量。然而,基于 P 值的基因排序不受影響。假設(shè)聚類有生物學(xué)意義,排名靠前的標(biāo)記基因仍將是最佳標(biāo)記基因候選。首先,我們可以通過可視化檢查預(yù)先驗(yàn)證標(biāo)記基因。我們強(qiáng)調(diào),通過無監(jiān)督的聚類方法,當(dāng)通過單個(gè)基因的表達(dá)確定細(xì)胞同一性群集時(shí),可以解釋所有其他基因的 P 值。這種單變量的聚類注釋方法雖然常見,但不推薦在特殊情況下使用(例如 β 細(xì)胞中的胰島素或紅細(xì)胞中的血紅蛋白)。其次,標(biāo)記基因在數(shù)據(jù)集中區(qū)分一個(gè)簇與其他簇,因此不僅依賴于細(xì)胞簇,還依賴于數(shù)據(jù)集組成。如果數(shù)據(jù)集組成不能準(zhǔn)確代表背景基因表達(dá),檢測(cè)到的標(biāo)記基因?qū)⑵蛴谌笔У牟糠?。特別是在計(jì)算細(xì)胞多樣性較低的數(shù)據(jù)集的標(biāo)記基因時(shí),必須考慮這方面。

最近,自動(dòng)集群注釋已經(jīng)可用。通過直接將注釋參考簇的基因表達(dá)譜與單個(gè)細(xì)胞進(jìn)行比較,scmap (Kiselev et al,2018b) 或 Gaett (preprint:Pliner et al,2019) 等工具可以在參考和數(shù)據(jù)集之間傳輸注釋。因此,這些方法可以同時(shí)執(zhí)行注釋和聚類分群,而不需要數(shù)據(jù)驅(qū)動(dòng)的聚類。由于細(xì)胞類型和狀態(tài)組成在實(shí)驗(yàn)條件之間存在差異(Segerstolpe et al,2016;Tanay)基于參考數(shù)據(jù)的聚類不應(yīng)取代數(shù)據(jù)驅(qū)動(dòng)的方法。

聚類、聚類注釋、重新或子聚類和重新注釋的迭代可能是耗時(shí)的。自動(dòng)注釋方法極大地加速了這一過程。然而,自動(dòng)化和手工方法有其優(yōu)點(diǎn)和局限性,很難推薦一種方法而不是另一種。速度的提高與靈活性的降低是一致的。如上所述,參考圖譜將不包含與研究數(shù)據(jù)集完全相同的細(xì)胞標(biāo)識(shí)。因此,不應(yīng)放棄標(biāo)記基因計(jì)算進(jìn)行手動(dòng)注釋。特別是對(duì)于包含許多集群的大型數(shù)據(jù)集,目前的最佳實(shí)踐是兩種方法的組合。為了提高處理速度,自動(dòng)化的細(xì)胞識(shí)別注釋可以用于粗略標(biāo)記細(xì)胞和識(shí)別可能的子簇。隨后,應(yīng)對(duì)數(shù)據(jù)集簇計(jì)算標(biāo)記基因,并與來自參考數(shù)據(jù)集或文獻(xiàn)的已知標(biāo)記基因集進(jìn)行比較。對(duì)于較小的數(shù)據(jù)集和缺少參考圖譜的數(shù)據(jù)集,手動(dòng)注釋即可。

問題和建議:
?不要使用標(biāo)記基因p值來驗(yàn)證細(xì)胞身份群集,特別是當(dāng)檢測(cè)到的標(biāo)記基因不能幫助注釋群落時(shí)。p值可能被夸大。
?請(qǐng)注意,同一細(xì)胞識(shí)別簇的標(biāo)記基因在不同數(shù)據(jù)集之間可能完全由于數(shù)據(jù)集細(xì)胞類型和狀態(tài)組成而不同。
?如果存在相關(guān)的參考圖集,我們建議使用自動(dòng)化的集群注釋,并結(jié)合基于數(shù)據(jù)的標(biāo)記基因的手動(dòng)注釋來注釋集群。

Compositional analysis

在細(xì)胞水平,我們可以根據(jù)其組成結(jié)構(gòu)分析聚類數(shù)據(jù)。成分分析(Compositional analysis
)圍繞著每個(gè)細(xì)胞同一簇的細(xì)胞比例,這些比例可因疾病反應(yīng)而改變。例如,已證實(shí)沙門氏菌感染可增加小鼠腸上皮中腸細(xì)胞的比例 (Haber et al,2017)。研究單細(xì)胞數(shù)據(jù)中的組成變化需要足夠的細(xì)胞數(shù)量來有力地評(píng)估細(xì)胞-同一簇的比例,以及足夠的樣本數(shù)量來評(píng)估細(xì)胞-同一簇組成中的預(yù)期背景變化。由于適當(dāng)?shù)臄?shù)據(jù)集最近才出現(xiàn),因此尚未開發(fā)專用工具。在上述小鼠研究中,使用泊松過程模擬細(xì)胞實(shí)體計(jì)數(shù),包括條件作為協(xié)變量,檢測(cè)到的細(xì)胞總數(shù)作為偏移。此處,可對(duì)回歸系數(shù)進(jìn)行統(tǒng)計(jì)檢驗(yàn),以評(píng)估特定細(xì)胞鑒別的頻率是否發(fā)生顯著變化。然而,相同數(shù)據(jù)集中其他細(xì)胞身份的檢測(cè)并不相互獨(dú)立。如果一個(gè)細(xì)胞同一性簇的比例發(fā)生變化,所有其他細(xì)胞同一性簇的比例也必須發(fā)生變化。因此,使用該模型無法評(píng)估總體組成是否發(fā)生顯著變化。在沒有專用工具的情況下,組成數(shù)據(jù)的可視化比較可以提供樣品之間組成變化的信息(圖 6C)。該領(lǐng)域的未來發(fā)展將可能借用流式細(xì)胞計(jì)數(shù)法(mass cytometry)(如 Tibshirani 等,2002;Arvaniti)或者微生物組文獻(xiàn) (Gloor et al,2017),其中成分?jǐn)?shù)據(jù)分析受到了更多關(guān)注。

問題和建議:
?考慮樣本間細(xì)胞同一簇比例變化的統(tǒng)計(jì)檢驗(yàn)是相互依賴的。

Trajectory analysis

Trajectory inference

細(xì)胞多樣性不能用諸如群集這樣的離散類化系統(tǒng)來充分描述。驅(qū)動(dòng)所觀察到的異質(zhì)性生物學(xué)過程是連續(xù)的過程(Tanay & Regev, 2017)。因此,為了捕捉細(xì)胞身份、分支分化過程或生物功能中漸進(jìn)的、不同步的變化,我們需要基因表達(dá)的動(dòng)態(tài)模型,這類方法稱為軌跡推斷(TI)。

軌跡推理方法將單細(xì)胞數(shù)據(jù)解釋為連續(xù)過程的快照。通過尋找穿過細(xì)胞空間的路徑,使相鄰細(xì)胞之間的轉(zhuǎn)錄變化最小化,重建了這一過程(圖 7A 和 B)。細(xì)胞的排列順序徑由偽時(shí)間(pseudotime)變量描述。雖然該變量與根細(xì)胞的轉(zhuǎn)錄距離有關(guān),但其通常被解釋為發(fā)育時(shí)間的代表 (Moignard et al,2015;Haghverdi et al,2016;Fischer et al,2018;Griffiths et al,2018)。


圖 7. Haber (2017) 小鼠腸上皮數(shù)據(jù)的軌跡分析和圖形提?。╣raph abstraction )。(A) Slingshot 推斷的遠(yuǎn)端和近端腸細(xì)胞分化軌跡。遠(yuǎn)端譜系顯示由紅到藍(lán)的偽時(shí)間顏色。數(shù)據(jù)集中的其他cell為灰色。PCA 空間中集群上的彈弓軌跡。細(xì)胞簇縮寫如下:EPenterocyte progenitors;Imm,耳鼻喉科。未成熟腸上皮細(xì)胞;耳鼻喉科。成熟腸細(xì)胞;近端;距離。遠(yuǎn)端。(C) 圖 7A 中腸細(xì)胞遠(yuǎn)端軌跡的密度。顏色代表每個(gè)假時(shí)間箱中的主導(dǎo)集群標(biāo)簽。投射到 UMAP 表示的數(shù)據(jù)集的抽象圖形表示。集群顯示為彩色節(jié)點(diǎn)。將出現(xiàn)在其他軌跡中的群集標(biāo)記為比較。TA 表示轉(zhuǎn)運(yùn)擴(kuò)增細(xì)胞。(E) 使用 GAM R 文庫在一般腸細(xì)胞軌跡中假時(shí)間內(nèi)的基因表達(dá)動(dòng)態(tài)。

自從 Monocle(Trapnell 等,2014)和 Wanderlust(Bendall 等,2014)方法提出以來,可用方法的數(shù)量激增。目前可用的 TI 方法在建模路徑的復(fù)雜性方面有所不同。模型的范圍從簡單的線性或分叉軌跡,到復(fù)雜的圖形、樹或多分支軌跡。在最近的 TI 方法綜合比較中 (Saelens et al,2018),得出的結(jié)論是,對(duì)于所有類型的軌跡,沒有一種方法的性能最佳。相反,TI 方法應(yīng)根據(jù)預(yù)期軌跡的復(fù)雜性進(jìn)行選擇。比較顯示,Slingshot (Street al,2018) 在線性模型、雙叉模型和多分支模型的簡單軌跡方面優(yōu)于其他方法。如果預(yù)期有更復(fù)雜的軌跡,作者推薦 PAGA (Wolf et al,2019)。如果確切的軌跡模型已知,也可以使用更專業(yè)的方法來改善性能 (Saelens et al,2018)。一般而言,任何推斷的軌跡均應(yīng)使用替代方法進(jìn)行確認(rèn),以避免方法偏倚。

在典型的工作流中,當(dāng)有一個(gè)內(nèi)建的降維步驟時(shí),TI 方法被應(yīng)用于約簡數(shù)據(jù)或校正數(shù)據(jù)。由于多個(gè)生物過程通常在細(xì)胞內(nèi)同時(shí)發(fā)生,因此逐步消除其他過程的生物效應(yīng)可能有助于隔離預(yù)期軌跡。例如,T 細(xì)胞可能在成熟過程中進(jìn)行細(xì)胞周期轉(zhuǎn)換 (Buettner et al,2015)。此外,由于一些性能最好的 TI 方法依賴于聚集數(shù)據(jù),TI 通常在聚集后進(jìn)行。推斷軌跡中的聚類可能代表穩(wěn)定或亞穩(wěn)態(tài)(參見亞穩(wěn)態(tài);圖 7B 和 C)。隨后,RNA 速度可以疊加到軌跡上,以增加方向性 (La Manno et al,2018)。

推斷軌跡不一定代表生物過程。首先,這些僅表示轉(zhuǎn)錄相似性。少數(shù) TI 方法包括對(duì)其模型中不確定性的評(píng)價(jià) (Griffiths et al,2018)。因此,需要更多信息來確認(rèn)是否確實(shí)采集了生物過程。這些信息可以以擾動(dòng)實(shí)驗(yàn)、推斷調(diào)控基因動(dòng)力學(xué)和 RNA 速度支持的形式出現(xiàn)。

問題和建議:
?我們建議以 Saelens et 等人(2018)的綜述為指南。
?推斷的軌跡不一定代表一個(gè)生物過程。
應(yīng)該收集進(jìn)一步的證據(jù)來源來解釋軌跡。

Gene expression dynamics

一種支持推斷軌跡不是擬合轉(zhuǎn)錄噪聲結(jié)果的方法是在基因水平分析軌跡。假時(shí)變化平滑的基因表征了軌跡,可用于識(shí)別潛在的生物學(xué)過程。再者,這組軌跡相關(guān)基因有望包含調(diào)控建模過程的基因。調(diào)節(jié)基因幫助我們理解如何以及為什么生物過程被觸發(fā),并代表潛在的藥物靶標(biāo) (Gashaw et al,2012)。

雖然早期發(fā)現(xiàn)軌跡相關(guān)基因的方法涉及沿軌跡在細(xì)胞群之間進(jìn)行 DE 測(cè)試 (Haghverdi et al,2016;Alpert et al,2018),但我們現(xiàn)在通過倒退假時(shí)基因表達(dá)檢測(cè)沿軌跡變化的基因。為了使表達(dá)沿該協(xié)變量平滑變化,通過擬合樣條或通過額外的局部回歸步驟(例如 loess)平滑假時(shí)間。回歸框架的噪聲模型假設(shè)和用于描述假時(shí)間函數(shù)表達(dá)式的函數(shù)類別不同。通過對(duì)偽時(shí)間依賴基因進(jìn)行模型選擇,獲得潛在的調(diào)控基因。偽時(shí)間上的 DE 測(cè)試被軌跡推理方法混淆,就像集群之間的 DE 測(cè)試被集群方法混淆一樣(參見集群注釋部分)。因此,在該設(shè)置中獲得的 P 值不應(yīng)視為顯著性評(píng)價(jià)。

目前很少有專門的基因時(shí)間動(dòng)力學(xué)工具存在。BEAM 是集成到 Monocle TI 流水線中的工具 (Qiu et al,2017a),允許檢測(cè)分支特異性基因動(dòng)態(tài)。在此管道之外,用戶可以選擇 LineagePulse(https://github.com/YosefLab/LineagePulse),它考慮了脫落噪聲,但仍在開發(fā)中,或者使用 limma 包 (Ritchie et al,2015) 或標(biāo)準(zhǔn) R 庫編寫自己的測(cè)試框架。可在在線彈弓教程 (Street et al,2018) 和圖 7E 中找到這方面的示例。

由于可用的工具很少,研究基因時(shí)間動(dòng)態(tài)的最佳實(shí)踐還不能確定?;騽?dòng)力學(xué)的探索性研究當(dāng)然有可能使用上述所有的方法。高斯過程是研究基因時(shí)間動(dòng)態(tài)的一個(gè)自然模型。此外,檢測(cè)調(diào)控模塊而不是單個(gè)基因可能會(huì)提高信噪比并促進(jìn)生物學(xué)解釋。

Metastable states

軌跡的細(xì)胞水平分析研究假時(shí)間內(nèi)的細(xì)胞密度。假設(shè)細(xì)胞以無偏倚的方式被取樣,沿著軌跡的密集區(qū)域表明首選轉(zhuǎn)錄狀態(tài)。當(dāng)把軌跡解釋為一個(gè)時(shí)間過程時(shí),這些致密區(qū)域可能代表亞穩(wěn)態(tài),例如,發(fā)展(Haghverdi 等,2016)。我們可以通過繪制假時(shí)間坐標(biāo)直方圖(圖 7C)找到這些亞穩(wěn)態(tài)。

Cell-level analysis unification

聚類和軌跡推斷代表了單細(xì)胞數(shù)據(jù)的兩種不同觀點(diǎn)。這兩個(gè)視圖可以在粗粒度圖表示中進(jìn)行協(xié)調(diào)。通過將單細(xì)胞簇表示為節(jié)點(diǎn),將簇之間的軌跡表示為邊緣,可以表示數(shù)據(jù)的靜態(tài)和動(dòng)態(tài)性質(zhì)。這種統(tǒng)一是由基于分割的圖抽象工具提出的(PAGA;圖 7D;Wolf et al,2019)。PAGA 使用一個(gè)細(xì)胞簇相互作用的統(tǒng)計(jì)模型,在細(xì)胞簇節(jié)點(diǎn)之間放置一個(gè)比預(yù)期更相似的邊。在最近的綜述中,PAGA 優(yōu)于其他 TI 方法(Saelens 等,2018)。這是唯一審查的方法能夠應(yīng)付斷開的拓?fù)浜蛷?fù)雜的圖表包含周期。這個(gè)特性使 PAGA 成為一個(gè)有用的工具,可以可視化整個(gè)數(shù)據(jù)集的拓?fù)浣Y(jié)構(gòu),以便進(jìn)行探索性分析。

Gene-level analysis

而我們到目前為止主要集中在表征細(xì)胞結(jié)構(gòu)的基因水平分析方法,單細(xì)胞數(shù)據(jù)的基因水平分析具有更廣泛的范圍。差異表達(dá)檢測(cè)、基因集分析和基因調(diào)控網(wǎng)絡(luò)推斷直接研究數(shù)據(jù)中的分子信號(hào)。這些方法不是描述細(xì)胞的異質(zhì)性,而是使用這種異質(zhì)性作為理解基因表達(dá)的背景。

Differential expression testing

關(guān)于表達(dá)數(shù)據(jù)的一個(gè)常見問題是,在兩種實(shí)驗(yàn)條件下是否存在差異表達(dá)的基因。DE是一個(gè)有大量文獻(xiàn)證明的問題,它起源于bulk rna 基因表達(dá)分析(Scholtens & von Heydebreck, 2005)。相對(duì)于bulk差異測(cè)試的一個(gè)優(yōu)點(diǎn)是,我們可以通過在細(xì)胞識(shí)別簇中執(zhí)行測(cè)試來解釋單細(xì)胞環(huán)境中的細(xì)胞異質(zhì)性。這種設(shè)置告訴我們,在特定的實(shí)驗(yàn)條件下,單個(gè)細(xì)胞的身份是如何進(jìn)行轉(zhuǎn)錄反應(yīng)的(Kang et al, 2018)。

盡管設(shè)計(jì)來回答相同的問題,但 bulk 和單細(xì)胞 DE 工具在方法上有所不同。雖然開發(fā)了bulk 方法以從少量樣本中準(zhǔn)確估計(jì)基因方差,但單細(xì)胞數(shù)據(jù)不存在此問題。另一方面,單細(xì)胞數(shù)據(jù)包含獨(dú)特的技術(shù)噪聲偽影,如脫落和高細(xì)胞間變異性 (Hicks et al,2017;Vallejos et al,2017)。專門為單細(xì)胞數(shù)據(jù)設(shè)計(jì)的方法考慮了這些人為因素 (Kharchenko et al,2014;Finak et al,2015)。然而,最近一項(xiàng)大規(guī)模的 DE 分析比較研究表明,bulk DE 測(cè)試包的性能與性能最好的單細(xì)胞工具(Soneson & Robinson, 2018)此外,當(dāng)通過在測(cè)試中引入基因權(quán)重使散裝工具適合模擬單細(xì)胞數(shù)據(jù)時(shí),建議這些工具優(yōu)于其單細(xì)胞對(duì)應(yīng)物 (Van den Berge et al,2018)。根據(jù)該比較,性能最佳的 DE 分析工具為 DESeq2 (Love et al,2014) 和 EdgeR (Robinson et al,2010),結(jié)合 ZINB-wave (Risso et al,2018) 估計(jì)的權(quán)重。需要包括加權(quán)批量 DE 檢測(cè)方法的獨(dú)立比較研究來確認(rèn)這些結(jié)果。

加權(quán)批量 DE 測(cè)試的改進(jìn)性能是以犧牲計(jì)算效率為代價(jià)的。鑒于單細(xì)胞實(shí)驗(yàn)中細(xì)胞數(shù)量增加的趨勢(shì),算法運(yùn)行時(shí)間正成為方法選擇中越來越重要的考慮因素。因此,single-celltool MAST (Finak et al,2015) 代表了重量bulk DE 工具的有效替代品。MAST 使用柵欄模型來解釋脫落,同時(shí)建立依賴于條件和技術(shù)協(xié)變量的基因表達(dá)變化模型。它是上述研究中表現(xiàn)最好的單細(xì)胞 DE 測(cè)試方法(Soneson & Robin-
son), 并在單個(gè)數(shù)據(jù)集的小規(guī)模比較中,表現(xiàn)優(yōu)于bulk和單細(xì)胞方法 (Vieth et al,2017)。雖然 emast 的運(yùn)行時(shí)間比加權(quán)批量方法快 10-100 倍 (Van den Berge et al,2018),但使用 limmaCvoom 可實(shí)現(xiàn)進(jìn)一步 10 倍加速 (Law et al,2014)。盡管 limma 是一種bulk rna DE 試驗(yàn)方法,但 limmaCvoom 已被證明可實(shí)現(xiàn)與 MAST 相當(dāng)?shù)男阅堋?/p>

未校正的實(shí)測(cè)數(shù)據(jù)應(yīng)用于 DE 檢驗(yàn),解釋混雜因素對(duì)穩(wěn)健估計(jì)差異表達(dá)基因至關(guān)重要。雖然 DE 測(cè)試工具通常允許用戶靈活地加入混雜因素,但用戶必須警惕哪些變量被添加到模型中。例如,在大多數(shù)單細(xì)胞實(shí)驗(yàn)設(shè)置中,樣本和條件協(xié)變量被混淆,因?yàn)樵诙喾N條件下很少可能獲得單個(gè)樣本。如果我們將樣本和條件協(xié)變量合并到模型中,與這些協(xié)變量相關(guān)的變異性就不能再明確分配。因此,當(dāng)檢驗(yàn)條件時(shí),我們不能將樣本協(xié)變量納入給定形式的模型中。當(dāng)校正多個(gè)分類批次協(xié)變量時(shí),目測(cè)發(fā)現(xiàn)混雜的協(xié)變量組變得越來越困難。在這種情況下,檢驗(yàn)?zāi)P驮O(shè)計(jì)矩陣是否是滿秩的是有幫助的。即使設(shè)計(jì)矩陣不是完全秩,DE 測(cè)試工具也會(huì)經(jīng)常調(diào)整矩陣并在沒有輸出警告的情況下運(yùn)行。這不會(huì)產(chǎn)生預(yù)期結(jié)果。

在我們?cè)诖嗣枋龅那榫爸校瑮l件協(xié)變量在實(shí)驗(yàn)設(shè)置中確定。因此,對(duì)該協(xié)變量(在同一聚類內(nèi))的 DE 檢驗(yàn)獨(dú)立于聚類程序。該設(shè)置區(qū)分了條件上的 DE 測(cè)試和分群上的 DE 測(cè)試。在條件下獲得的 DE 檢驗(yàn) P 值代表預(yù)期的顯著性指標(biāo),必須進(jìn)行多重檢驗(yàn)校正。為了減少多重檢測(cè)負(fù)擔(dān),可能不相關(guān)的轉(zhuǎn)錄本可以從數(shù)據(jù)集中排除。而假基因或非編碼 RNA 可以提供信息 (An et al,2017),它們?cè)诜治鲋型缓雎浴?/p>

問題和建議:
?DE測(cè)試不應(yīng)該在校正數(shù)據(jù)(去噪、批次校正等)上進(jìn)行,而應(yīng)該在模型中包含技術(shù)協(xié)變量的測(cè)量數(shù)據(jù)上進(jìn)行。
?用戶不應(yīng)該依賴DE測(cè)試工具來糾正帶有混淆的協(xié)變量的模型。模型規(guī)范應(yīng)該謹(jǐn)慎執(zhí)行,以確保完整的設(shè)計(jì)矩陣。
?我們建議使用MAST或limma進(jìn)行DE測(cè)試。

Gene set analysis

基因水平分析方法通常會(huì)產(chǎn)生長長的候選基因列表,難以解釋。例如,數(shù)千個(gè)基因可能在處理細(xì)胞和對(duì)照細(xì)胞之間差異表達(dá)。我們可以根據(jù)共享特征將基因分組到集合中,并檢測(cè)這些特征是否在候選基因列表中過度表達(dá),從而促進(jìn)這些結(jié)果的解釋。

基因集信息可以在各種應(yīng)用的精選標(biāo)簽數(shù)據(jù)庫中找到。為了解釋 DE 結(jié)果,我們通常根據(jù)共同的生物學(xué)過程對(duì)基因進(jìn)行分組。生物過程標(biāo)簽存儲(chǔ)在數(shù)據(jù)庫中,如 MSigDB (Liberzon et al,2011)、Gene Ontology (Ashbuer et al,2000;the Gene Ontology Consortium,2017) 或 pathway 數(shù)據(jù)庫 KEGG (Kanehisa et al,2017) 和 Reactome (Fabregat et al,2018)。Huang et al (2009) 和 Tarca et al (2013) 回顧并比較了大量工具,可以測(cè)試基因列表上注釋的富集。

單細(xì)胞分析領(lǐng)域的一個(gè)最新進(jìn)展是利用配對(duì)的基因標(biāo)記進(jìn)行配體受體分析。這里,細(xì)胞簇之間的相互作用是根據(jù)受體及其同源配體的表達(dá)推斷的。配體受體對(duì)標(biāo)記可以是從最近的 CellPhoneDB 中獲得 (Vento-Tormo et al,2018),并使用統(tǒng)計(jì)模型解釋跨集群的高表達(dá)基因 (Zepp et al,2017;Zhou et al,2017;Cohen et al,2018;Vento-Tormo et al,2018)。

Gene regulatory networks

基因并不獨(dú)立發(fā)揮作用。相反,一個(gè)基因的表達(dá)水平是由與其他基因和小分子的調(diào)控相互作用的復(fù)雜的相互作用決定的。揭示這些調(diào)控相互作用是基因調(diào)控網(wǎng)絡(luò) (GRN) 推理方法的目標(biāo)。

基因調(diào)控網(wǎng)絡(luò)推斷是基于相關(guān)、互信息等基因共表達(dá)的測(cè)量,或通過回歸模型進(jìn)行的(Chen & Mar, 2018)。如果兩個(gè)基因表現(xiàn)出一種共表達(dá)信號(hào),即使考慮到所有其他基因都是潛在的混雜因子,這些基因也被認(rèn)為具有因果調(diào)控關(guān)系。推斷基因調(diào)控關(guān)系與軌跡相關(guān)調(diào)控基因的檢測(cè)有關(guān)。事實(shí)上,幾種單細(xì)胞 GRN 推理方法使用軌跡與差異分析方程模型 (Ocone et al,2015;Matsumoto et al,2017)。

雖然有專門針對(duì)scRNA-seq數(shù)據(jù)開發(fā)的GRN推理方法(SCONE: Matsumoto et al, 2017;
PIDC: Chan等人,2017;最近的一項(xiàng)比較顯示,bulk和單細(xì)胞方法在這些數(shù)據(jù)上的表現(xiàn)都很差(Chen & Mar, 2018)。GRN推斷方法仍可能為識(shí)別生物過程的因果調(diào)節(jié)因子提供有價(jià)值的見解,但我們建議謹(jǐn)慎使用這些方法。

問題和建議:
?用戶應(yīng)警惕由此推斷出生物關(guān)系中的不確定性。為調(diào)控關(guān)系而富集的基因模塊比單個(gè)更可靠。

Analysis platforms

單細(xì)胞分析工作流是獨(dú)立開發(fā)的工具。為了促進(jìn)數(shù)據(jù)在這些工具之間的轉(zhuǎn)移,圍繞著一致的數(shù)據(jù)格式開發(fā)了單細(xì)胞平臺(tái),這些平臺(tái)為分析管道的建設(shè)提供了依據(jù)。當(dāng)前可用的平臺(tái)存在于 R (McCarthy et al,2017;Butler et al,2018) 或 Python (Wolf et al,2018) 的命令行中,并作為本地應(yīng)用程序 (Patel,2018;preprint:Scholz et al,2018) 或 Web 服務(wù)器 (Gardeux et al,2017;Zhu et al,2017) 使用圖形用戶界面 (GUI)。Zhu et al (2017) 和 Zappia et al (2018) 提供了平臺(tái)概述。

在命令行平臺(tái)中,Scater (McCarthy et al,2017) 和 Seurat (Butler et al,2018) 很容易與 R Bioconductor 項(xiàng)目提供的大量分析工具連接 (Huber et al,2015)。Scater 在 QC 和預(yù)處理方面具有特別的優(yōu)勢(shì),而 Seurat 可以說是最流行和最全面的平臺(tái),它包括了大量的工具和教程。這個(gè)小組最近增加了 scanpy (Wolf et al,2018),這是一個(gè)不斷增長的基于 python 的平臺(tái),它展示了對(duì)大量細(xì)胞。它充分利用了越來越多的用 Python 編寫的工具,這些工具在機(jī)器學(xué)習(xí)應(yīng)用程序中特別流行。

圖形用戶界面平臺(tái)使非專業(yè)用戶能夠構(gòu)建單細(xì)胞分析工作流程。用戶通常通過規(guī)定的工作流程進(jìn)行指導(dǎo),以便于分析,但也限制了用戶的靈活性。這些平臺(tái)尤其適用于探索性分析。Granatum (Zhu et al,2017) 和 ASAP (Gardeux et al,2017) 等平臺(tái)集成的工具不同,Granatum 包括的方法種類更多。作為網(wǎng)絡(luò)服務(wù)器,這兩個(gè)平臺(tái)是現(xiàn)成的,但計(jì)算基礎(chǔ)設(shè)施將限制其擴(kuò)展到大型數(shù)據(jù)集的能力。例如,在僅有 92 個(gè)細(xì)胞的數(shù)據(jù)集上測(cè)試 ASAP。基于 Web 的 GUI 平臺(tái)的替代方案是程序包,例如 FASTGenomics(預(yù)印:Scholz et al,2018)、iSEE (Rue-Albrecht et al,2018)、IS-CellR (Patel,2018) 和 Granatum(在本地服務(wù)器上運(yùn)行)。這些都是平臺(tái)和 GUI 包裝器,可以與本地可用的計(jì)算能力進(jìn)行縮放。未來,人類細(xì)胞圖譜門戶網(wǎng)站的持續(xù)發(fā)展(https://www.humancellatlas.org/data-sharing)將帶來更強(qiáng)大的可視化數(shù)據(jù)探索工具,可擴(kuò)展到大的cell數(shù)。

Conclusions and outlook

我們回顧了典型的 scRNA-seq 分析工作流程,并展示案例研究教程(httpsfwww.github.com/theislab/single-cell-tutorial)。本教程旨在遵循現(xiàn)有方法確定當(dāng)前的最佳實(shí)踐。雖然聚合單個(gè)最佳實(shí)踐工具不能保證就是最佳的分析流程,但是我們的工作流程代表了單細(xì)胞分析領(lǐng)域最新技術(shù)水平的最新概覽。因此,它為新來者提供了進(jìn)入該領(lǐng)域的合適切入點(diǎn),并借助人類細(xì)胞圖譜的努力,以建立 scRNA-seq 分析的最佳實(shí)踐 (preprint:Regev et al,2018)。應(yīng)當(dāng)注意的是,現(xiàn)有方法比較必然落后于最新方法開發(fā)。因此,我們提到了尚未在可能情況下獨(dú)立評(píng)估的新發(fā)展。隨著未來新的和更好的工具的發(fā)展,以及進(jìn)一步的比較研究,這里提出的個(gè)別工具建議將需要更新,但關(guān)于數(shù)據(jù)處理階段的一般考慮應(yīng)保持不變。

兩個(gè)特別感興趣的開發(fā)途徑是深度學(xué)習(xí)工作流和單細(xì)胞組學(xué)集成,因?yàn)樗鼈冇锌赡芷茐默F(xiàn)有分析流程。由于其向大數(shù)據(jù)擴(kuò)展的靈活性,深度學(xué)習(xí)已經(jīng)徹底改變了從計(jì)算機(jī)視覺到自然語言處理的領(lǐng)域,并開始在基因組學(xué)中產(chǎn)生強(qiáng)大的影響 (Webb,2018)。scRNA-seq 的首批應(yīng)用開始從降維到去噪(例如 scVis:Ding et al,2018;scGen:preprint:Lotfollahi et al,2018;DCA:Eraslan et al,2019)。最近,深度學(xué)習(xí)已被用于產(chǎn)生一個(gè)嵌入式工作流,該工作流可擬合數(shù)據(jù)、消噪并在模型框架內(nèi)進(jìn)行聚類和差異表達(dá)等下游分析 (scVI:Lopez et al,2018)。在該設(shè)置中,可能將噪聲和批效應(yīng)估計(jì)值納入下游統(tǒng)計(jì)檢驗(yàn)中,同時(shí)保持?jǐn)?shù)據(jù)方差的準(zhǔn)確估計(jì)值。

隨著單細(xì)胞 omic 技術(shù)的提高,對(duì)集成 omic 分析的需求將逐漸增長(Tanay & Regev, 2017)。未來的單細(xì)胞平臺(tái)將必須能夠處理不同的數(shù)據(jù)源,如 DNA 甲基化 (Smallwood et al,2014)、染色質(zhì)可及性 (Buenrostro et al,2015) 或蛋白質(zhì)豐度 (Stoeckius et al,2017),并包括整合這些模態(tài)的工具。對(duì)于這種設(shè)置,不再可能只使用單個(gè)讀取或計(jì)數(shù)矩陣,我們將其用作本教程的起點(diǎn)。然而,平臺(tái)已經(jīng)在適應(yīng)多模態(tài)數(shù)據(jù)結(jié)構(gòu),以整合 RNA velocity,這是根據(jù)未拼接和拼接讀數(shù)數(shù)據(jù)計(jì)算的 (La Manno et al,2018)。單細(xì)胞多基因整合可以通過一致性聚類方法(SC3)、多基因因素分析 (Argelaguet et al,2018) 或多基因調(diào)控網(wǎng)絡(luò)推斷 (Colome-tatchen) 來實(shí)現(xiàn)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容