聚類是分析單細胞RNA序列(scrna-seq)數(shù)據(jù)的一種常用分析方法,但數(shù)據(jù)量的快速增長會使這一過程在計算上具有挑戰(zhàn)性。準(zhǔn)確高效聚類的新方法是迫切需要的。本文提出了一種基于隨機投影和特征構(gòu)造的大規(guī)模scrna-seq數(shù)據(jù)聚類新框架——spearman次抽樣聚類分類(Spearman subsampling-clustering-classification,SSCC)。SSCC大大提高了以多個真實數(shù)據(jù)集為基準(zhǔn)的各種最先進算法的聚類精度、魯棒性和計算效率。在一個擁有68578個人類血細胞的數(shù)據(jù)集上,與廣泛使用的軟件包SC3相比,SSCC在聚類準(zhǔn)確性和50倍加速方面實現(xiàn)了20%的改進,但只消耗了66%的內(nèi)存使用。與K均值相比,SSCC的精度提高了3倍。SSCC的R實現(xiàn)可在https://github.com/japrin/ssclus上獲得
單細胞RNA測序(scrna-seq)通過揭示高分辨率單個細胞的異質(zhì)性,徹底改變了轉(zhuǎn)錄組學(xué)研究。聚類已成為識別細胞類型、描述其功能狀態(tài)和推斷潛在細胞動力學(xué)的常規(guī)分析手段[4-10]。已經(jīng)開發(fā)了多種聚類算法,包括Seurat[11]、SC3[12]、Simlr[13]、Zifa[14]、CIDR[15]、SNN-Cliq[16]和Corr[17]。這些算法大大提高了scrna-seq數(shù)據(jù)的聚類精度,但往往具有較高的計算復(fù)雜度,阻礙了這些優(yōu)雅算法向大規(guī)模scrna-seq數(shù)據(jù)集的擴展。隨著scrna-seq技術(shù)的快速發(fā)展,吞吐量已從最初的數(shù)百個細胞增加到現(xiàn)在的數(shù)萬個細胞。對來自多個運行甚至跨多個研究的scrna-seq數(shù)據(jù)集的綜合分析進一步加劇了計算困難。因此,需要能夠高效、準(zhǔn)確地對單個單元進行聚類的算法。
為了處理多個大規(guī)模scrna-seq數(shù)據(jù)集,通過將大數(shù)據(jù)集降采樣或卷積為小數(shù)據(jù)集或通過使用新的軟件實現(xiàn)加速計算,提出了特殊的計算策略。這些戰(zhàn)略已經(jīng)達到了不同的成功水平,但還沒有充分解決這些挑戰(zhàn)??紤]到高效、準(zhǔn)確的聚類工具對大規(guī)模scrna-seq數(shù)據(jù)分析的重要性,本文提出了一種新的計算框架,即基于機器學(xué)習(xí)技術(shù)的Spearman次抽樣聚類分類(SSCC),包括特征工程和隨機投影,以提高聚類的準(zhǔn)確性和有效性。對各種scrna-seq數(shù)據(jù)集進行基準(zhǔn)測試表明,與目前的解決方案相比,SSCC可以在保持高聚類精度的同時,將計算復(fù)雜度從O(n2)降低到O(n)。此外,新的計算框架的靈活性允許我們的方法進一步擴展和適應(yīng)于scrna-seq數(shù)據(jù)分析的廣泛應(yīng)用。
框架概述
在處理大型scrna-seq數(shù)據(jù)集的可用解決方案中,具有次采樣和分類的集群[12,19]具有線性復(fù)雜性,即O(N)。這種框架一般由四個步驟組成(圖1a)。(1)利用基因和細胞過濾、歸一化等數(shù)據(jù)預(yù)處理技術(shù)構(gòu)建基因表達矩陣;(2)將細胞分為兩個子集,分別進行亞采樣聚類和分類;(3)將用于聚類的子集細胞分為多個聚類。ng k-means[23]、層次聚類[24]、密度聚類[25]或?qū)iT為scrna seq開發(fā)的算法;以及(4)監(jiān)督算法,如k-nearest neighbors[26]、支持向量機(SVMS)[27]或隨機森林[28]用于根據(jù)第三步是聚類結(jié)果。為了簡單起見,我們將這個現(xiàn)有框架稱為子抽樣聚類分類(scc)。由于聚類是一個耗時且內(nèi)存耗盡的過程,因此通過子采樣將這一步驟限制在一個小的單元子集上,可以利用有監(jiān)督機器學(xué)習(xí)算法的效率,大大降低從O(n2)到O(n)的計算成本。然而,建立在一小部分細胞原始基因表達數(shù)據(jù)基礎(chǔ)上的分類器,由于原始數(shù)據(jù)的噪聲和細胞的數(shù)量少,可能存在缺陷和偏差,從而影響了整個細胞標(biāo)簽分配的準(zhǔn)確性。

圖1。快速聚類大規(guī)模scrna-seq數(shù)據(jù)集的兩個計算框架a.sc3中提出的原始計算框架(簡稱scc)包括四個主要步驟:
(1)構(gòu)建基因表達矩陣;
(2)通過細胞亞擴增將矩陣分為兩部分。
(3)將子樣本細胞聚類;
(4)將未完成的細胞分類為聚類。
b.本研究中提出的新計算框架(參考SFCC)。在聚類和分類之前添加一個特征構(gòu)造步驟。整個框架包括五個步驟:
(1)構(gòu)建基因表達矩陣;
(2)通過細胞子采樣將矩陣分為兩部分;
(3)將子采樣/未采樣的細胞投影到特征空間;
(4)將子采樣的細胞聚集到特征空間;
(5)對uns進行分類。在特征空間中將單元格合并為簇。
scrna-seq,單細胞RNA測序;sc3,單細胞共識聚類;scc,亞采樣聚類;sfcc,亞采樣特征聚類。
在這里,我們提出了一個新的計算框架,通過在SCC中添加一個特征工程/投影步驟來集群大型scrna-seq數(shù)據(jù)(圖1b)。與SCC相似,基因表達矩陣首先通過基因和細胞過濾和歸一化構(gòu)建(步驟1,圖1b),然后隨機分為兩個子集,分別進行聚類和分類(步驟2;圖1b)。與直接使用基因表達原始數(shù)據(jù)的scc不同,我們的新框架將細胞投影到特征空間(步驟3;圖1b)中進行聚類(步驟4;圖1b)和分類(步驟5;圖1b)。
由于新框架的特點是具有聚類分類策略的二次抽樣,因此我們將其命名為sfcc。具體來說,我們將特征構(gòu)造分為兩個步驟:
- (1)將特征提取技術(shù)應(yīng)用于需要聚類的單元;
- (2)根據(jù)特征提取方法的選擇,將分類單元投影到構(gòu)建的特征空間中。
機器學(xué)習(xí)領(lǐng)域的許多成熟技術(shù)可以通過這兩個步驟加以利用。例如,主成分分析(PCA)[29]可用于首先為正在進行聚類的單元構(gòu)造特征,而合成的加載向量可用于線性變換,以投影單元,以便分類到特征空間。在sfcc框架的每個步驟中選擇不同的算法將形成不同的管道,用于集群大規(guī)模scrna-seq數(shù)據(jù)集。為了減少算法組合的總數(shù),本文重點比較了各種特征工程算法的性能。我們將基因和細胞過濾、歸一化、亞采樣和分類算法作為實踐中常用的算法?,F(xiàn)有的SCC策略可以看作是SFCC的一個特例,其中原始數(shù)據(jù)空間是特征空間。
本研究所涉及的特征工程技術(shù)包括基于距離的方法(歐幾里得和余弦)、基于相關(guān)性的方法(皮爾遜[30]和斯皮爾曼[31]相關(guān)性)和基于神經(jīng)網(wǎng)絡(luò)的方法(自動編碼器)[32]。對于基于距離和相關(guān)的方法,直接使用聚類的細胞的距離/相關(guān)矩陣作為其特征,使用分類和聚類的細胞之間的距離/相關(guān)矩陣來構(gòu)建分類的細胞特征子集。對于自動編碼器,首先利用待聚類細胞的基因表達數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,然后通過訓(xùn)練后的模型的編碼函數(shù)將所有細胞投射到特征空間中。為了獲得獨立于聚類算法的評估結(jié)果,我們使用輪廓值(silhouette values)[33]來檢查這些特征工程方法的全局性能。在全局評價的基礎(chǔ)上,選擇最有效的方法SSCC和具有斯皮爾曼相關(guān)的SFCC作為特征構(gòu)建方法,進行進一步評價。
scRNA-seq datasets used in this study
我們使用七個scrna-seq數(shù)據(jù)集來評估特征空間中的聚類性能。這些數(shù)據(jù)包括Kolodziejczyk數(shù)據(jù)集[34]、花粉數(shù)據(jù)集[8]、Usoskin數(shù)據(jù)集[9]、Zeisel數(shù)據(jù)集[10]、鄭數(shù)據(jù)集[5]、PBMC 68 K數(shù)據(jù)集[18]和Macosko數(shù)據(jù)集[19]。
大規(guī)模scrna-seq數(shù)據(jù)的可用性迫切需要高效和準(zhǔn)確的集群工具。目前,一些scrna-seq數(shù)據(jù)分析包已被提議解決這一挑戰(zhàn)。在這些工具中,sc3[12]、seurat[11]和dropclust[20]采用了scc策略,bigscale[21]采用卷積策略,通過貪婪的搜索算法將相似的單個單元合并為巨型單元,scanpy[22]使用python作為編程語言來加速集群過程。雖然這些策略大大提高了大型scrna-seq數(shù)據(jù)分析的效率,但仍有很大的改進空間。特別是SCC策略存在著子采樣帶來的偏差,盡管它可以將計算復(fù)雜度從O(n2)降低到O(n),但這可能會大大降低聚類的準(zhǔn)確性和魯棒性。在這里,我們將特性工程和投影技術(shù)引入到SCC框架中,并提出SFCC作為替代方案。特別是,以斯皮爾曼關(guān)聯(lián)作為特征工程和投影方法,我們建立了一個稱為SSCC的框架,它可以顯著提高許多通用和特殊設(shè)計的聚類算法的聚類精度和一致性。對真正的scrna-seq數(shù)據(jù)集的評估,包括各種scrnaseq技術(shù)、測序深度和生物體,證明了SSCC優(yōu)越性能的穩(wěn)健性。因此,SSCC有望成為一個有用的計算框架,進一步釋放scrna-seq未來的強大功能。
簡單單小區(qū)RNAseq數(shù)據(jù)聚類(sscClust)是一個實現(xiàn)簡單使用聚類管道的包。單細胞RNAseq數(shù)據(jù)聚類通常由變量基因選擇、降維、降維數(shù)據(jù)聚類等組成。目前,該包還封裝了針對單細胞RNAseq數(shù)據(jù)設(shè)計的其他聚類方法,包括SC3、ZinbWave等。