單細(xì)胞轉(zhuǎn)錄多樣性是發(fā)育潛能的一個(gè)標(biāo)志
本篇文章首發(fā)于單細(xì)胞天地
單細(xì)胞RNA測(cè)序(scRNA-seq)是重建細(xì)胞分化軌跡的有力方法。然而,同時(shí)推斷分化的狀態(tài)與方向是一項(xiàng)具有挑戰(zhàn)性的工作。作者利用這種轉(zhuǎn)錄多樣性的度量方法來開發(fā)了計(jì)算框架(CytoTRACE),從而利用scRNA-seq數(shù)據(jù)預(yù)測(cè)分化狀態(tài)。鏈接是Science Pub Date : DOI:10.1126/science.aax0249.文章標(biāo)題:Single-cell transcriptional diversity is a hallmark of developmental potential
摘要
單細(xì)胞RNA測(cè)序(scRNA-seq)是一種重建細(xì)胞分化軌跡的有效方法。然而,同時(shí)推斷分化的狀態(tài)與方向是具有挑戰(zhàn)性的任務(wù)。在這里,我們展示了一個(gè)簡(jiǎn)單而精確的發(fā)育潛力的決定因素——每個(gè)細(xì)胞表達(dá)基因的數(shù)量——并利用這個(gè)轉(zhuǎn)錄多樣性的測(cè)量來開發(fā)一個(gè)計(jì)算框架(細(xì)胞追蹤)來預(yù)測(cè)來自scRNA-seq數(shù)據(jù)的分化狀態(tài)。當(dāng)應(yīng)用于不同的組織類型和生物體時(shí),細(xì)胞追蹤技術(shù)在解決52條實(shí)驗(yàn)確定的發(fā)育軌跡方面的表現(xiàn)優(yōu)于先前的方法,并且可以解析將近19000個(gè)帶注釋的基因集。此外,該方法也促進(jìn)了靜態(tài)干細(xì)胞的鑒定,并揭示了與乳腺癌發(fā)生有關(guān)的基因。因此,本研究建立了一個(gè)基于RNA的發(fā)育潛力關(guān)鍵特征和一個(gè)描述細(xì)胞層次結(jié)構(gòu)的平臺(tái)。
數(shù)據(jù)分析情況
作者從34篇研究中選擇42個(gè)單細(xì)胞scRNA-seq測(cè)序數(shù)據(jù)集用來鑒定和驗(yàn)證發(fā)育潛力。
詳細(xì)信息作者放在了補(bǔ)充材料里面。放一張圖片,顯示部分?jǐn)?shù)據(jù)集信息。
表達(dá)矩陣可以下載:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSEGSE138536.
結(jié)果
RNA-based correlates of single-cell differentiation states
基于RNA相關(guān)的單細(xì)胞分化狀態(tài)
我們的最初目標(biāo)是在不需要對(duì)發(fā)育方向或標(biāo)記細(xì)胞命運(yùn)轉(zhuǎn)變的中間細(xì)胞狀態(tài)有先驗(yàn)知識(shí)的情況下,確定強(qiáng)大的,基于RNA的發(fā)育潛能決定因素。利用scRNA-seq數(shù)據(jù),我們?cè)u(píng)估約 19000細(xì)胞能力的潛在關(guān)聯(lián),包括分子特征數(shù)據(jù)庫中所有可用的基因集(n = 17810), 896個(gè)中的所有可用基因集,涵蓋了來自ENCODE和ChEA的轉(zhuǎn)錄因子結(jié)合位點(diǎn)的896個(gè)基因集,源自mRNA表達(dá)的干性指數(shù)(mRNAsi),以及三種推斷干性作為轉(zhuǎn)錄熵的量度的計(jì)算技術(shù)[StemID,SCENT和SLICE]。我們還探討了“基因計(jì)數(shù)”效用,即每個(gè)細(xì)胞中可檢測(cè)到的表達(dá)基因的數(shù)量。雖然在有限的環(huán)境中觀察到與分化狀態(tài)相關(guān)的現(xiàn)象[小鼠肺泡發(fā)育和斑馬魚血小板發(fā)育],但這種關(guān)聯(lián)的可靠性以及它是否反映了細(xì)胞個(gè)體發(fā)育的一般特性尚不清楚。為了評(píng)估這些基于rna的特征,我們編制了一個(gè)訓(xùn)練隊(duì)列,由9個(gè)標(biāo)準(zhǔn)的scRNA-seq數(shù)據(jù)集組成,這些數(shù)據(jù)集具有經(jīng)實(shí)驗(yàn)證實(shí)的分化軌跡。選擇這些數(shù)據(jù)集是為了對(duì)早期研究中常用的基準(zhǔn)數(shù)據(jù)集進(jìn)行排序,并確保廣泛抽樣從哺乳動(dòng)物受精卵到終分化細(xì)胞的發(fā)育狀態(tài)(表S1)??偟膩碚f,訓(xùn)練隊(duì)列包含了3174個(gè)單細(xì)胞,跨越49種表型、6個(gè)生物系統(tǒng)和3個(gè)scRNA-seq平臺(tái)(圖S1A和表S1)。為了評(píng)估性能,我們使用Spearman相關(guān)性來比較每個(gè)基于rna的特征,平均表型,與已知的分化狀態(tài)(圖1A)。然后,我們對(duì)9個(gè)訓(xùn)練數(shù)據(jù)集的結(jié)果求平均值,得出每個(gè)特性的最終得分和排名(表S2)。這一系統(tǒng)篩選揭示了許多已知的和未預(yù)料到的分化狀態(tài)相關(guān)關(guān)系(圖1B、圖S1B和表S2)。然而,一個(gè)特別的特征顯示了顯著的性能:每個(gè)細(xì)胞可檢測(cè)表達(dá)的基因數(shù)量(基因計(jì)數(shù))。這一數(shù)據(jù)驅(qū)動(dòng)的特征出現(xiàn)在排名前1%的列表中(18,711中有104個(gè)),與成熟的干細(xì)胞簽名(包括細(xì)胞周期和多能性基因)相比顯得更為有利,但也顯示出獨(dú)特的生物學(xué)特性和更廣泛的適用性。
Development of CytoTRACE
創(chuàng)建CytoTRACE方法
每個(gè)細(xì)胞表達(dá)的基因數(shù)量通常在關(guān)鍵技術(shù)參數(shù)方面表現(xiàn)出一致的性能,并且通常與mRNA含量相關(guān)(圖S4至S7)。然而,在一些數(shù)據(jù)集中,如體外向胃泌層分化的hESCs(27),每個(gè)細(xì)胞中表達(dá)的基因數(shù)量表現(xiàn)出相當(dāng)大的表型內(nèi)變異(圖2A,左)。事實(shí)上,當(dāng)在單細(xì)胞水平上進(jìn)行評(píng)估時(shí),我們計(jì)算機(jī)模擬篩選中的412個(gè)預(yù)定義基因集的表現(xiàn)優(yōu)于基因計(jì)數(shù)(圖S8A和表S2)。由于scRNA-seq設(shè)計(jì)用于捕獲單細(xì)胞基因表達(dá),因此我們認(rèn)為其表達(dá)方式與基因計(jì)數(shù)相關(guān)的基因可能會(huì)更好地捕獲分化狀態(tài)。實(shí)際上,通過簡(jiǎn)單地平均與每個(gè)數(shù)據(jù)集(材料和方法)中的基因計(jì)數(shù)高度相關(guān)的基因的表達(dá)水平,所得的特定于數(shù)據(jù)集的基因計(jì)數(shù)簽名(GCS)成為屏幕中性能最高的指標(biāo),我們?cè)u(píng)估的預(yù)定義基因集和計(jì)算工具(圖S8,A至D)。因此,我們基于單個(gè)細(xì)胞間的轉(zhuǎn)錄協(xié)方差,實(shí)現(xiàn)了一個(gè)兩步的步驟來直接平滑GCS(圖2A,右側(cè),以及材料和方法)。所得方法,我們稱為CytoTRACE [用于使用基因計(jì)數(shù)和表達(dá)進(jìn)行細(xì)胞(Cyto)軌跡重建分析; https://cytotrace.stanford.edu],優(yōu)于我們?cè)u(píng)估的GCS和其他基于RNA的功能(圖S8和表S2)。
Performance evaluation across tissues,species, and platforms
跨組織,物種和平臺(tái)的性能評(píng)估
為了驗(yàn)證我們的發(fā)現(xiàn),我們從26項(xiàng)研究中收集了33個(gè)額外的scRNA-seq數(shù)據(jù)集(圖S10A,表1,以及材料和方法)。這些數(shù)據(jù)集代表了不同的發(fā)育和分化過程,由141,267個(gè)單細(xì)胞組成,涵蓋266個(gè)表型,9個(gè)生物系統(tǒng),5個(gè)物種(包括2個(gè)完整生物)和9個(gè)scRNA-seq平臺(tái)(3個(gè)基于液滴和6個(gè)基于板的平臺(tái))協(xié)議,范圍從平均約10,000個(gè)唯一分子標(biāo)識(shí)符到每個(gè)細(xì)胞約100萬個(gè)讀數(shù)(圖S5A)。在單細(xì)胞水平上進(jìn)行評(píng)估時(shí),CytoTRACE在驗(yàn)證隊(duì)列中的表現(xiàn)優(yōu)于所有評(píng)估的基于RNA的特征(圖2B),與排名第二高的方法相比,其性能顯著提高(中位數(shù)rho = 0.72 vs 0.53)。排名第二的方法; P = 0.001)(圖2C;圖S10B;表S2和S4)。在包括骨髓分化在內(nèi)的許多復(fù)雜系統(tǒng)中都觀察到了類似的改善(圖S10C)。此外,88%的數(shù)據(jù)集中,CytoTRACE結(jié)果與分化方向呈正相關(guān)。此外,在組織類型,物種,分析的細(xì)胞數(shù)量,時(shí)間序列實(shí)驗(yàn)與發(fā)育狀態(tài)快照或基于板的與基于液滴的技術(shù)之間,未觀察到明顯的性能偏差(圖S12)。進(jìn)一步評(píng)估CytoTRACE,我們用RNA速度相比,動(dòng)力學(xué)模型,該模型可以預(yù)測(cè)未來細(xì)胞狀態(tài),但僅限于scRNA-seq數(shù)據(jù)和連續(xù)的命運(yùn)的轉(zhuǎn)換。為了分析RNA速度輸出,其中包括對(duì)每個(gè)細(xì)胞的個(gè)性化預(yù)測(cè)(圖S13),我們確定了跨越當(dāng)前和未來細(xì)胞狀態(tài)的所有成對(duì)狀態(tài),跨越了已知的發(fā)展?jié)摿ψ兓◤男〉酱蟮捻樞?,反之亦然)。然后,我們?cè)诰哂羞B續(xù)發(fā)展過程的五個(gè)數(shù)據(jù)集上對(duì)已知的分化狀態(tài)對(duì)每個(gè)預(yù)測(cè)的軌跡進(jìn)行評(píng)分(圖S13B以及材料和方法)。為了進(jìn)行公平的比較,我們?cè)谙嗤募?xì)胞上對(duì)CytoTRACE進(jìn)行了評(píng)估。盡管兩種方法在RNA velocity在某些細(xì)胞數(shù)據(jù)集上的表現(xiàn)相似,但CytoTRACE總體上獲得了更高的準(zhǔn)確度(中位數(shù)分別為74%和54%;圖S13C)。這可能是由于RNA速度模型假定了較短的mRNA半衰期和發(fā)育時(shí)間尺度。在評(píng)估了單個(gè)數(shù)據(jù)集的性能之后,我們接下來詢問是否可以將CytoTRACE應(yīng)用于通過批量校正統(tǒng)一的獨(dú)立scRNA-seq數(shù)據(jù)集。為了解決這個(gè)問題,我們利用相互最近鄰和高斯核歸一化Scanorama的技術(shù)(材料和方法)。然后,我們使用這種方法合并了幾個(gè)數(shù)據(jù)集。無論我們是否整合了在不同scRNA-seq平臺(tái)上分析的數(shù)據(jù)集(圖3A)還是包含發(fā)育上不同的細(xì)胞類型的數(shù)據(jù)集(圖S14),CytoTRACE預(yù)測(cè)的單細(xì)胞排序是準(zhǔn)確的。
Stem cell-related genes and hierarchies
干細(xì)胞相關(guān)基因和層次
鑒于CytoTRACE能夠恢復(fù)幾乎每個(gè)評(píng)估的數(shù)據(jù)集中的分化方向的能力,我們接下來探索了其在沒有先驗(yàn)知識(shí)的情況下識(shí)別未成熟表型標(biāo)記的潛力。通過根據(jù)與CytoTRACE的相關(guān)性對(duì)基因進(jìn)行排序,可以在86%的基準(zhǔn)數(shù)據(jù)集中輕松地對(duì)未成熟細(xì)胞的標(biāo)記進(jìn)行優(yōu)先排序(圖S15A)。譜系關(guān)系及其相關(guān)基因也可以通過專用的分支檢測(cè)工具來確定,如Monocle 2;然而,這些方法并不能預(yù)測(cè)生物過程的起點(diǎn)。例如,當(dāng)應(yīng)用于4442個(gè)骨髓細(xì)胞時(shí),Monocle 2識(shí)別出23個(gè)可能的“根”,從中計(jì)算偽時(shí)間值(圖3B,左)。相比之下,在沒有用戶輸入的情況下,細(xì)胞描記法很容易識(shí)別出正確的根(圖3B,右側(cè),圖S16, A和B)。值得注意的是,其他方法在細(xì)胞示蹤導(dǎo)向下也表現(xiàn)出了較強(qiáng)的性能(圖S16G和表S4)。我們接著問,細(xì)胞痕跡是否可以從下游祖細(xì)胞中區(qū)分出循環(huán)和長(zhǎng)期或靜止的干細(xì)胞。由于這些群體已經(jīng)在骨髓中得到了很好的描述(3),我們?cè)谛∈笤煅到y(tǒng)中研究了這個(gè)問題。雖然循環(huán)和靜止造血干細(xì)胞(HSC)亞群被正確預(yù)測(cè)為分化程度較低,但只有增生性造血干細(xì)胞明顯高于早期祖細(xì)胞(圖3C)。然而,這個(gè)結(jié)果并不意外,因?yàn)殪o止細(xì)胞代謝活動(dòng)減少和RNA含量低(1),通過設(shè)計(jì)一個(gè)簡(jiǎn)單的方法來可視化推斷RNA含量的函數(shù)CytoTRACE(圖3 d,頂部),我們觀察到一個(gè)明顯的山谷RNA豐富恰逢Hoxb5表達(dá)升高,長(zhǎng)期的一個(gè)標(biāo)志或靜止的肝星狀細(xì)胞(圖3 d,底部)。由于這些細(xì)胞不能僅通過基因計(jì)數(shù)或RNA含量來識(shí)別,因此本分析證實(shí)了細(xì)胞追蹤的實(shí)用性,并展示了一種從scRNA-seq數(shù)據(jù)中闡明組織特異性干細(xì)胞的方法。
Application to neoplastic disease 在腫瘤疾病中的應(yīng)用
CytoTRACE在多種腫瘤發(fā)生、發(fā)展及治療的過程中也具有明顯的優(yōu)勢(shì)。
臨床意義
在表征不同的組織、器官和整個(gè)生物體的發(fā)育過程中單細(xì)胞轉(zhuǎn)錄組方法顯示了強(qiáng)調(diào)了對(duì)基于RNA的發(fā)育潛力的強(qiáng)大決定因素的需求。在對(duì)42個(gè)發(fā)育過程中,近15萬個(gè)單細(xì)胞的約19,000個(gè)特征的分析中,我們發(fā)現(xiàn)基因計(jì)數(shù),即每個(gè)細(xì)胞中可檢測(cè)到的表達(dá)基因的數(shù)量,與轉(zhuǎn)錄的多樣性和分化狀態(tài)密切相關(guān)。盡管在特定的實(shí)驗(yàn)系統(tǒng)(例如,小鼠肺泡上皮發(fā)育,斑馬魚血小板生成和來自hESCs26-28分化的神經(jīng)元)中已經(jīng)有所發(fā)現(xiàn)(關(guān)聯(lián)),但是我們首次證實(shí)了這種關(guān)聯(lián):
(1)基于近19000個(gè)RNA特征的方法優(yōu)于大多數(shù)具備干細(xì)胞推理工具和預(yù)定義的分子特征的工具。(2)通常獨(dú)立于物種,平臺(tái)和組織類型,并且(3)廣泛適用于整個(gè)細(xì)胞本體發(fā)育。
雖然先前的研究已經(jīng)證明在特定的發(fā)育環(huán)境(如胚胎干細(xì)胞、腸干細(xì)胞和神經(jīng)干細(xì)胞)中,染色質(zhì)可及性和/或可塑性的整體降低,但是我們的定量研究擴(kuò)展了這一結(jié)果范圍。此外,如之前所示ref65,我們的數(shù)據(jù)表明,表型相同的單個(gè)細(xì)胞之間的基因計(jì)數(shù)的差異并不完全是由于"drou-out"引起,也有可能是由于轉(zhuǎn)錄組的差異采樣(圖S3)。因此,我們的數(shù)據(jù)與一個(gè)模型是一致的,在這個(gè)模型中,較不成熟的細(xì)胞保持較松散的染色質(zhì),以便對(duì)轉(zhuǎn)錄組進(jìn)行更廣泛的采樣,而分化程度較高的細(xì)胞在特化時(shí)通常限制染色質(zhì)的可及性和轉(zhuǎn)錄多樣性(圖S6C)66。未來的研究將需要進(jìn)一步確認(rèn)該模型的有效性,并評(píng)估其在不同組織間隔、發(fā)育時(shí)間點(diǎn)和表型狀態(tài)之間的相關(guān)性。
基因數(shù)量的鑒定識(shí)別是衡量細(xì)胞分化狀態(tài)的主要指標(biāo),這也是促進(jìn)我們創(chuàng)立CytoTRACE的動(dòng)力。CytoTRACE是一種計(jì)算框架,它利用基因計(jì)數(shù),并在單細(xì)胞水平上顯著改善細(xì)胞分化狀態(tài)。與大多數(shù)現(xiàn)有的沿襲軌跡分析方法不同,CytoTRACE可以以一種獨(dú)立于特定時(shí)間尺度或數(shù)據(jù)中存在連續(xù)發(fā)育過程的方式預(yù)測(cè)相對(duì)狀態(tài)和分化方向,而與特定時(shí)間尺度或數(shù)據(jù)中是否存在持續(xù)發(fā)展的過程無關(guān)。CytoTRACE也與組織類型,物種和scRNA-seq平臺(tái)無關(guān)。
我們預(yù)計(jì)這些優(yōu)勢(shì)將是單細(xì)胞的重要應(yīng)用成為可能。例如,通過使用細(xì)胞追蹤分析人類乳腺腫瘤的scRNA-seq譜,我們發(fā)現(xiàn)了與分化程度較低的管腔祖細(xì)胞相關(guān)的新候選基因,并確立了GULP1在乳腺腫瘤發(fā)生中的新作用。這些數(shù)據(jù)強(qiáng)調(diào)了CytoTRACE在描述腫瘤分化層級(jí)和發(fā)現(xiàn)新的生物標(biāo)志物和治療靶點(diǎn)方面的實(shí)用性。此外,通過將RNA含量與CytoTRACE結(jié)合,我們首次證明,可以使用無監(jiān)督的計(jì)算機(jī)方法可以將靜止的成年干細(xì)胞與下游祖細(xì)胞區(qū)分開來。考慮到靜止干細(xì)胞的巨大再生潛力,它們?cè)谌梭w組織中的識(shí)別在再生醫(yī)學(xué)和癌癥治療中具有廣泛的意義。
盡管,CytoTRACE可以概括從單一譜系到整個(gè)生物的發(fā)育順序,但仍然存在一些挑戰(zhàn)。例如,盡管幾乎所有數(shù)據(jù)集的分化方向都被正確預(yù)測(cè),但仍有12%的病例被誤判了。這些數(shù)據(jù)集也被證明其他方法存在這一問題,這也意味著將來可能具有改進(jìn)的機(jī)會(huì)。此外,CytoTRACE當(dāng)前以等級(jí)空間表示,無法在不同數(shù)據(jù)集之間直接比較。
總之,我們得出結(jié)論,每個(gè)細(xì)胞表達(dá)基因的數(shù)量是其發(fā)育潛力的一個(gè)標(biāo)志。通過利用scRNA-seq數(shù)據(jù)的這種數(shù)據(jù)驅(qū)動(dòng)特性,我們開發(fā)了一個(gè)廣泛適用的框架來解決單細(xì)胞分化層次結(jié)構(gòu)方法-CytoTRACE。按照設(shè)想,我們的方法將補(bǔ)充現(xiàn)有的scRNA-seq分析策略,對(duì)在整個(gè)多細(xì)胞生命中鑒定復(fù)雜組織中的未成熟細(xì)胞及其發(fā)育軌跡具有重要意義。
(本篇文章開發(fā)的在線工具https://cytotrace.stanford.edu/)