細(xì)胞注釋是單細(xì)胞轉(zhuǎn)錄組分析的重要環(huán)節(jié),來自加拿大的研究人員在《Nature protocols》發(fā)表細(xì)胞注釋教程綜述,介紹了單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析中細(xì)胞注釋的一般工作流程,涵蓋可用于每個(gè)步驟的軟件工具和資源的指導(dǎo)原則和具體建議。
Tutorial: guidelines for annotating single-cell transcriptomic maps using automated and manual methods
此篇教程建議的細(xì)胞注釋分析流程主要有三個(gè)步驟:自動注釋、手動注釋和驗(yàn)證。
1. 步驟1:自動注釋
自動注釋是使用算法和適當(dāng)?shù)南闰?yàn)生物學(xué)知識標(biāo)記細(xì)胞或細(xì)胞簇的有效方法。一般原則是識別單個(gè)細(xì)胞或細(xì)胞簇中與已知細(xì)胞類型或狀態(tài)的特征基因表達(dá)特征相匹配的基因表達(dá)信號(模式或特征);然后為細(xì)胞或細(xì)胞簇分配相應(yīng)的標(biāo)簽,標(biāo)簽通常有一個(gè)相關(guān)的置信度得分。
有兩種主要的自動注釋方法:一種是使用已知的標(biāo)記基因,標(biāo)記基因和細(xì)胞類型之間的已知關(guān)系可從數(shù)據(jù)庫中獲得,如SCSig、PanglaoDB和CellMarker,或從文獻(xiàn)中手動獲得。第二種方法是將需要注釋的scRNA-seq數(shù)據(jù)("查詢 "數(shù)據(jù)集)與現(xiàn)有的、類似的、經(jīng)過專業(yè)注釋的scRNA-seq數(shù)據(jù)集("參考 "數(shù)據(jù)集)進(jìn)行比較,"參考 "數(shù)據(jù)集來源于GEO、單細(xì)胞表達(dá)圖譜或細(xì)胞圖譜項(xiàng)目等。
1.1 基于標(biāo)記的自動注釋方法
> 為了標(biāo)記單個(gè)細(xì)胞,最可靠的基于標(biāo)記的注釋工具之一是半監(jiān)督類別識別和分配(SCINA)。
> AUCell是另一種很好的基于標(biāo)記的標(biāo)記方法,可以對單個(gè)細(xì)胞或簇進(jìn)行分類。
> 為了標(biāo)記整個(gè)聚類,基因集變異分析(GSVA)已被證明是快速可靠的。
優(yōu)點(diǎn):基于標(biāo)記的自動注釋方法只將標(biāo)簽分配給與已知標(biāo)記相關(guān)聯(lián)的細(xì)胞,而其他細(xì)胞將保持未標(biāo)記狀態(tài)。
潛在問題:不是所有細(xì)胞類型都容易獲得標(biāo)記基因;可能導(dǎo)致細(xì)胞標(biāo)簽沖突或缺失。
解決策略:需要專業(yè)研究擴(kuò)展標(biāo)記列表
1.2 基于參考數(shù)據(jù)集的自動注釋方法
scmap是基于參考數(shù)據(jù)集的自動細(xì)胞或細(xì)胞簇注釋的最佳工具之一,它既能保證指定標(biāo)簽的準(zhǔn)確性,又能避免對新細(xì)胞類型的錯(cuò)誤標(biāo)記。其他工具包括SingleCellNet和SingleR。
基準(zhǔn)研究顯示,自動注釋工具的性能各不相同,取決于數(shù)據(jù)集和要注釋的細(xì)胞類型基因表達(dá)譜的獨(dú)特性。當(dāng)對一個(gè)數(shù)據(jù)集應(yīng)用多種細(xì)胞注釋方法時(shí),細(xì)胞或細(xì)胞簇會獲得多個(gè),有時(shí)是相互沖突的細(xì)胞類型標(biāo)簽。如果存在沖突,大多數(shù)工具提供的標(biāo)簽置信度分?jǐn)?shù)可以用來識別一個(gè)單一的高分標(biāo)簽。然而,不同工具之間的置信度分?jǐn)?shù)并不統(tǒng)一,所以它們通常不具有可比性。沖突也可以通過多數(shù)規(guī)則的方法來解決,即選擇最頻繁的標(biāo)簽等。如果不能有把握地決定任何標(biāo)簽,則必須對細(xì)胞或群組進(jìn)行人工注釋。
步驟2:人工注釋
在人工注釋中,使用各種資源對細(xì)胞進(jìn)行人工檢查,以獲得其功能的線索,這與基于標(biāo)記的自動注釋的原則相同。專業(yè)的人工注釋通常被認(rèn)為是細(xì)胞注釋的金標(biāo)準(zhǔn);然而,其是緩慢和勞動密集型的工作,而且可能是主觀的。
如果沒有進(jìn)行自動注釋,應(yīng)首先手動應(yīng)用基于標(biāo)記的注釋。常使用的查看標(biāo)記基因表達(dá)的圖有tNSE、UMAP 和熱圖等,如果一個(gè)已知細(xì)胞類型的許多標(biāo)記基因在一個(gè)簇中的細(xì)胞中高度表達(dá),這往往足以支持它被標(biāo)記為該細(xì)胞類型。易于使用的軟件,如免費(fèi)的Loupe Cell Browser for 10x Genomics scRNA seq data,支持這種可視化和分析過程。這種方法面臨的挑戰(zhàn)是,已知標(biāo)記的數(shù)量通常太少,無法完全注釋scRNA序列數(shù)據(jù)集,并且一些已知標(biāo)記在scRNA序列數(shù)據(jù)集中可能不像預(yù)期的那樣特異。額外的標(biāo)記通常必須通過搜索文獻(xiàn)和挖掘現(xiàn)有的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)來手動尋找與查詢數(shù)據(jù)集相關(guān)的基因表達(dá)特征。
在某些情況下,一個(gè)簇可能不表達(dá)任何已知的細(xì)胞類型的標(biāo)志物;相反,它可能表達(dá)一種以上的細(xì)胞類型的標(biāo)志物。這就需要doublet檢測工具幫助確定集群是否由doublet組成。
一旦來自已知標(biāo)記物的細(xì)胞類型信息被用盡,必須逐簇手動檢查未被可靠注釋的細(xì)胞。然后手動研究所有標(biāo)記基因,以找到可能有助于識別與其相關(guān)的簇的細(xì)胞類型的功能信息。信號通路富集分析也應(yīng)適用于每個(gè)簇,使用標(biāo)準(zhǔn)的工作流程和工具,如基因組變異分析(GSVA)或單樣本基因組富集分析(ssGSEA)來確定簇的特定信號通路。
一些細(xì)胞可能很難注釋,包括新的細(xì)胞類型,可以根據(jù)它們表達(dá)的基因的功能來描述。此外,可能特別難以區(qū)分相同類型的組織駐留細(xì)胞(例如,組織駐留巨噬細(xì)胞)和非組織駐留細(xì)胞(例如,血液中循環(huán)的單核細(xì)胞)。識別組織駐留細(xì)胞的一種方法是修改實(shí)驗(yàn)設(shè)計(jì),通過灌注步驟從相關(guān)組織中移除passenger cells。
最后,在注釋細(xì)胞類型時(shí)需要謹(jǐn)慎地使用標(biāo)準(zhǔn)術(shù)語,以便細(xì)胞圖譜更容易在不同的研究中被整合。
步驟3:驗(yàn)證
上述工具和方法可以為scRNA-seq數(shù)據(jù)提供可靠的細(xì)胞類型標(biāo)記。由于mRNA檢測只能部分定義細(xì)胞類型和功能,關(guān)于新型細(xì)胞類型的重要結(jié)論必須經(jīng)過實(shí)驗(yàn)驗(yàn)證。例如可以使用T細(xì)胞受體(TCR)和B細(xì)胞受體克隆分型來細(xì)化組織駐留免疫細(xì)胞的細(xì)胞類型標(biāo)簽,以檢查T細(xì)胞和B細(xì)胞的轉(zhuǎn)錄特征。
分析流程的建議
細(xì)胞類型注釋的質(zhì)量受許多數(shù)據(jù)分析流程參數(shù)的影響,如數(shù)據(jù)過濾和數(shù)據(jù)質(zhì)量設(shè)置,以及選擇的聚類分辨率。scClustViz、Seurat和clustree等工具有助于選擇適當(dāng)?shù)木垲惙直媛?/strong>。為了識別稀有細(xì)胞類型,在對細(xì)胞進(jìn)行聚類之前,可能需要使用特征選擇工具專門識別稀有細(xì)胞類型的標(biāo)記(例如GiniClust85)。對于技術(shù)原因引入的“背景污染”可以使用SoupX(尋找細(xì)胞類型標(biāo)記的非特異性表達(dá))或CellBender(使用機(jī)器學(xué)習(xí)校正細(xì)胞表達(dá)譜)等方法來評估和校正。
研究團(tuán)隊(duì)建議細(xì)胞注釋的一般流程從自動注釋開始,需要操作者有一定編程基礎(chǔ),主要使用R或Python編程語言。如果需要,可以通過使用軟件(如Loupe Browser、GSEA和Cerebro)調(diào)查細(xì)胞的基因表達(dá)模式和相關(guān)的基因功能,不需要編程技巧,就可以對圖譜進(jìn)行完整注釋。人工注釋應(yīng)該從識別主要的已知細(xì)胞類型開始。對于細(xì)胞圖譜將數(shù)據(jù)分成廣泛的子集(例如,免疫、內(nèi)皮和腫瘤)并對每個(gè)子集應(yīng)用推薦的工作流程是非常有用的。此外,并非所有工具都適用于所有數(shù)據(jù)集;重要的是考慮可靠的已知標(biāo)記和高質(zhì)量的參考數(shù)據(jù)集的可用性,或者在應(yīng)用依賴于該信息的方法之前,在樣本中有足夠的多樣性來檢測差異表達(dá)的基因。
隨著參考圖譜的快速增長,Cell Ontology等資源的改進(jìn)以及數(shù)據(jù)集整合算法的改進(jìn),預(yù)計(jì)自動注釋會有重大改進(jìn)。這些方法還需要擴(kuò)展到具有數(shù)百萬細(xì)胞的更大數(shù)據(jù)集規(guī)模。新的實(shí)驗(yàn)技術(shù)正在開發(fā)中,以檢測每個(gè)細(xì)胞的更多分子細(xì)節(jié),包括多組學(xué)技術(shù)(如mRNA、ATAC-seq、甲基化和表面蛋白),可以檢測單個(gè)細(xì)胞的多種信息,這些預(yù)計(jì)將大大改善我們理解多細(xì)胞系統(tǒng)的能力。此外,跨越許多單細(xì)胞圖譜的元分析將更清楚地確定跨組織和狀態(tài)(如炎癥)的細(xì)胞類型標(biāo)記(如巨噬細(xì)胞或內(nèi)皮細(xì)胞)。研究團(tuán)隊(duì)預(yù)計(jì),隨著每項(xiàng)研究樣本數(shù)量的增加,圖譜解釋的重點(diǎn)將逐漸轉(zhuǎn)移到跨疾病、年齡或其他條件的比較。
首發(fā)公號:國家基因庫大數(shù)據(jù)平臺
參考文獻(xiàn)
Ahn J, Heo S, Lee J, et al. Introduction to Single-Cell DNA Methylation Profiling Methods[J]. Biomolecules, 2021, 11(7): 1013.