Zhang, A.W., O’Flanagan, C., Chavez, E.A. et al. Probabilistic cell-type assignment of single-cell RNA-seq for tumor microenvironment profiling. Nat Methods 16, 1007–1015 (2019) doi:10.1038/s41592-019-0529-1
cellassign自動將單細(xì)胞的RNA-seq數(shù)據(jù)注釋到數(shù)千個已知細(xì)胞類型中,這些數(shù)據(jù)可用于說明患者和批次的具體影響。細(xì)胞類型矩陣以(二進制)標(biāo)記基因的形式提供給有關(guān)已知細(xì)胞類型的計算模型。然后cellassign概率性地(probabilistically)將每個cell分配到一個類型,消除了典型無監(jiān)督聚類的偏見。
單細(xì)胞 RNA 測序 (scRNA-seq) 改變了生物醫(yī)學(xué)研究,使復(fù)雜組織分解為分解的、功能不同的細(xì)胞類型。對于許多應(yīng)用,研究者希望鑒定具有已知標(biāo)記基因的細(xì)胞類型。通常,這樣的細(xì)胞類型分配是通過無監(jiān)督聚類,然后根據(jù)這些標(biāo)記基因進行手動注釋,或者通過映射程序到現(xiàn)有數(shù)據(jù)來進行的。然而,前一種情況下所需的人工判讀難以擴展到大型數(shù)據(jù)集,這也往往容易產(chǎn)生批次效應(yīng),而純化細(xì)胞類型的現(xiàn)有數(shù)據(jù)必須可用于后者。此外,無監(jiān)督的聚類可能容易出錯,導(dǎo)致感興趣的細(xì)胞類型聚類不足或過度。為了克服這些問題,我們提出了 CellAssign,一種利用細(xì)胞類型標(biāo)記基因的先驗知識將 scRNA-seq 數(shù)據(jù)注釋到預(yù)定義和從頭細(xì)胞類型的概率模型。CellAssign 自動化處理以可高度擴展的方式跨大型數(shù)據(jù)集分配細(xì)胞,同時控制批次和患者影響。我們通過廣泛的模擬證明了 CellAssign 的分析優(yōu)勢,并例證了真實效用,以描述高級別漿液性卵巢癌的空間動力學(xué)和濾泡性淋巴瘤的時間動力學(xué)。我們的分析揭示了亞克隆惡性表型,并指出免疫和癌細(xì)胞群之間的進化相互作用,癌細(xì)胞不會識別為免疫細(xì)胞。
在人體組織中以單細(xì)胞分辨率觀察到的基因表達(dá)能夠在多種生物學(xué)背景下研究混合細(xì)胞群的細(xì)胞類型組成和動力學(xué)過程,包括癌癥發(fā)展。從單細(xì)胞 RNA-seq (scRNA-seq) 數(shù)據(jù)推斷的細(xì)胞類型通常分兩步進行注釋,首先使用無監(jiān)督算法對細(xì)胞進行聚類,然后根據(jù)聚集的簇級表達(dá)譜對細(xì)胞類型進行標(biāo)記 。目前已經(jīng)提出了無數(shù)無監(jiān)督的 scRNA-seq 聚類方法,如 SC3 、Seurat 、PCAReduce 和PhenoGraph ,以及在一系列設(shè)置下評價其性能的研究 。然而,由于 i)低維投射未編碼高維輸入中存在的變異 和 ii)未充分變異的種群過度聚類,低維投射的聚類可能限制生物可解釋性。
此外,即使在概括生物細(xì)胞狀態(tài)或類別的穩(wěn)健聚類的背景下,也存在一些將細(xì)胞簇注釋為已知細(xì)胞類型的原則方法。與無監(jiān)督統(tǒng)計框架相比,后一步是監(jiān)督或分類問題。典型的工作流采用不同簇之間的差異表達(dá)分析,根據(jù)高差異表達(dá)標(biāo)記物手動分類細(xì)胞,輔之以最近的數(shù)據(jù)庫將細(xì)胞類型與基于標(biāo)準(zhǔn)基因的標(biāo)記物聯(lián)系起來 。在研究者希望跨多個樣本或重復(fù)樣本鑒定和定量已知標(biāo)記基因的特定感興趣細(xì)胞類型的情況下,這樣的工作流程會很繁瑣,聚類策略的差異會影響下游解讀 ?;蛘?,可以通過門控(gating on)標(biāo)記基因表達(dá)來指定細(xì)胞類型,但這種策略在實踐中很難實施,因為 (i) 門控難以用于多個基因,并且依賴于對標(biāo)記基因表達(dá)水平的了解,(ii) 落在這些門控之外的細(xì)胞不會被指定為任何類型,而不是被隨機指定為最可能的細(xì)胞類型。
另一種細(xì)胞類型注釋的方法是利用來自標(biāo)記和純化細(xì)胞類型的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)建立穩(wěn)健的圖譜,新的數(shù)據(jù)可根據(jù)該圖譜進行比較和分類。例如,scmap-cluster 計算已知轉(zhuǎn)錄組數(shù)據(jù)中每個細(xì)胞類型的 medioid 表達(dá)譜,然后根據(jù)這些譜的最大相關(guān)性分配輸入的細(xì)胞。然而,這種方法需要目標(biāo)純化細(xì)胞群的現(xiàn)有 scRNA-seq 數(shù)據(jù)。鑒于與實驗設(shè)計和處理差異相關(guān)的技術(shù)影響,參考群體的表達(dá)譜可能無法與其他單細(xì)胞 RNA-seq 實驗直接比較 。
我們斷言,利用文獻(或?qū)嶒灒┲械南闰炛R的統(tǒng)計細(xì)胞類型分類方法將是對無監(jiān)督方法的有效補充,用于從 scRNA-seq 數(shù)據(jù)中定量分解異質(zhì)性組織。因此,為了解決聚類和映射方法固有的分析挑戰(zhàn),我們開發(fā)了 CellAssign,這是一個可擴展的統(tǒng)計框架,在 scRNA-seq 數(shù)據(jù)中注釋和量化已知的和新生的細(xì)胞類型。CellAssign 為每種細(xì)胞類型編碼一組先驗標(biāo)記基因,自動完成注釋過程。然后統(tǒng)計模型使用標(biāo)記基因矩陣(細(xì)胞類型-基因)對輸入數(shù)據(jù)中每個細(xì)胞最可能的細(xì)胞類型進行分類。模型允許靈活表達(dá)的標(biāo)記基因,假設(shè)標(biāo)記基因在它們定義的相對于其他的細(xì)胞類型中表達(dá)得更高。CellAssign 在 Googles Tensorfiow 框架中實現(xiàn),CellAssign 具有高度可擴展性,能夠在數(shù)秒內(nèi)注釋數(shù)千個細(xì)胞,同時控制批間、患者和研究中心的變異性。我們評估了 CellAssign 在不同分化階段的 FACS-純化 H7 人胚胎干細(xì)胞 (HSCs) 的一系列模擬背景和真實數(shù)據(jù),表明 CellAssign 比聚類和基于相關(guān)性的方法更容易區(qū)分密切相關(guān)的細(xì)胞類型,并且對標(biāo)記基因規(guī)范的錯誤具有穩(wěn)健性。此外,我們應(yīng)用 CellAssign 生成的兩個新的數(shù)據(jù)集來分析人類癌癥的時空腫瘤微環(huán)境 (TME) 動力學(xué)。使用 CellAssign 方法,我們通過包括 TME 在內(nèi)的間質(zhì)和免疫細(xì)胞類型的可變成分以及包括免疫逃避、上皮間質(zhì)轉(zhuǎn)化和缺氧在內(nèi)的惡性腫瘤細(xì)胞群關(guān)鍵通路的變化,證明了未治療的高級別漿液性卵巢癌中的腫瘤生態(tài)系統(tǒng)空間多樣性。還使用 CellAssign 方法舉例說明了時間動力學(xué)。我們從匹配的診斷和復(fù)發(fā)的濾泡性淋巴瘤樣本中生成了 scRNA-seq 文庫,其中一個病例已經(jīng)發(fā)生了向侵襲性淋巴瘤的組織學(xué)轉(zhuǎn)化。我們展示了組成和表型變化,包括轉(zhuǎn)化后癌細(xì)胞中 T 細(xì)胞活化和 HLA 下調(diào),表明轉(zhuǎn)化后癌細(xì)胞逃避免疫識別的進化相互作用??傊覀兊贸龅慕Y(jié)論是,CellAssign 方法提供了一個穩(wěn)健的新統(tǒng)計框架,通過該框架,可對由混合細(xì)胞群組成的組織中的疾病動力學(xué)進行定量和解釋,以最終揭示疾病進展的新特性。
CellAssign: probabilistic and automated cell type assignment
CellAssign 框架(圖 1)將觀察到的異質(zhì)細(xì)胞群的基因表達(dá)建模為多種因素的復(fù)合,包括細(xì)胞類型、文庫大小和批次。輸入包括原始單細(xì)胞 RNA-seq 讀段計數(shù)和每個感興趣細(xì)胞類型的標(biāo)記基因集。假定標(biāo)志基因在細(xì)胞類型中過表達(dá),在細(xì)胞類型中它們不一定是標(biāo)志基因,與那些沒有標(biāo)志基因的細(xì)胞水平相似??蛇x擇在標(biāo)準(zhǔn)設(shè)計矩陣中編碼其他實驗和生物學(xué)協(xié)變量,如批次和患者來源。利用這些信息,CellAssign 采用分層貝葉斯統(tǒng)計框架來確定每個細(xì)胞屬于每個模型細(xì)胞類型的概率,并使用期望最大化推斷算法估計模型參數(shù),包括每個細(xì)胞類型中標(biāo)記基因的相對表達(dá)和其他協(xié)變量對標(biāo)記基因表達(dá)模式的系統(tǒng)影響。當(dāng)存在未知細(xì)胞類型(在標(biāo)記物矩陣中未指明)時,細(xì)胞分配將不屬于任何提供的細(xì)胞類型的細(xì)胞指定為未分配。方法中描述了詳細(xì)的模型規(guī)范、實現(xiàn)和運行時性能。

Discussion
我們開發(fā)了一種計算方法,根據(jù)預(yù)先定義的標(biāo)記基因信息,將單細(xì)胞 RNA 測序數(shù)據(jù)自動注釋到細(xì)胞類型中。我們的方法系統(tǒng)性地確定細(xì)胞類型表達(dá)模式和分配概率僅僅是基于標(biāo)記基因在它們各自的細(xì)胞類型中高度表達(dá)的假設(shè),而不需要人工的聚類注釋或現(xiàn)有的細(xì)胞類型圖譜分析方法的訓(xùn)練數(shù)據(jù)。在模擬和來自純化群體的真實 scRNA-seq 數(shù)據(jù)上,CellAssigns 精度與基于無監(jiān)督聚類和映射方法的最先進的工作流相當(dāng)或更優(yōu),并在成千上萬個細(xì)胞的數(shù)據(jù)集上一分鐘運行。我們還展示了散裝 RNA-seq 數(shù)據(jù)如何能夠?qū)崿F(xiàn)標(biāo)記基因識別,以便使用 CellAssign 準(zhǔn)確區(qū)分表型相似的細(xì)胞類型。
隨后,我們應(yīng)用 CellAssign 分析從 HGSC 和濾泡性淋巴瘤中收集的空間和時間樣本的微環(huán)境組成。我們展示了 CellAssign 不僅可以描述多種惡性和非惡性的上皮細(xì)胞、間質(zhì)細(xì)胞和免疫細(xì)胞類型,還可以鑒別由任意標(biāo)記基因定義的亞群,揭示濾泡性淋巴瘤中非惡性 B 細(xì)胞中 IGKC:IGLC 的比例與正常淋巴結(jié)構(gòu)一致 。雖然這些分析受限于有限的隊列規(guī)模,但它們提供了首個通過利用主要統(tǒng)計學(xué)方法中細(xì)胞類型的先驗知識解釋時空動力學(xué)和微環(huán)境相互作用的示例。
我們注意到,CellAssign 適用于已知標(biāo)記基因存在的情況。特征不明確的細(xì)胞類型(或未知的細(xì)胞類型或細(xì)胞狀態(tài))可能是 CellAssign 方法無法注釋的。此外,我們沒有預(yù)先區(qū)分相同標(biāo)記物在兩種不同細(xì)胞類型中的中等或高表達(dá),盡管這些可以通過擴展模型來適應(yīng)不同參數(shù)之間的限制。然而,我們建議臨床應(yīng)用的很大一部分復(fù)雜組織分析始于已知細(xì)胞類型組成與疾病狀態(tài)相關(guān)的假設(shè)。
scRNA-seq 數(shù)據(jù)量將隨著時間的推移以兩種重要方式增加:(i) 分析的細(xì)胞類型數(shù)量將增加,從而擴大已知標(biāo)記基因的數(shù)據(jù)庫和 (ii) scRNA-seq 數(shù)據(jù)將在研究和臨床環(huán)境中變得更加廣泛可用 [34]。因此,CellAssign 準(zhǔn)備根據(jù)已知感興趣的參數(shù),如細(xì)胞類型、克隆特異性標(biāo)志物或與藥物反應(yīng)相關(guān)的基因,提供可擴展的、系統(tǒng)的和自動化的細(xì)胞分類。此外,通過適當(dāng)?shù)目蓴U展的模型 CellAssign 可以很容易地擴展到注釋其他單細(xì)胞測量技術(shù)(如 mass cytometry)生成的數(shù)據(jù)中的細(xì)胞類型。我們預(yù)計 CellAssign 方法將有助于通過在一個穩(wěn)健的概率框架中編碼生物學(xué)先驗知識,從而為人類疾病和其他復(fù)雜組織的細(xì)胞組成的大規(guī)模群體范圍研究提供新的途徑。
安裝
install.packages("tensorflow")
library(tensorflow)
install_tensorflow(extra_packages = "tensorflow-probability")
cellassign
Probabilistic cell-type assignment of single-cell RNA-seq for tumor microenvironment profiling