色婷婷一区久久久久久,国产久久久久久

聚類是分析單細胞RNA序列（scrna-seq）數(shù)據(jù)的一種常用分析方法，但數(shù)據(jù)量的快速增長會使這一過程在計算上具有挑戰(zhàn)性。準(zhǔn)確高效聚類的新方法是迫切需要的。本文提出了一種基于隨機投影和特征構(gòu)造的大規(guī)模scrna-seq數(shù)據(jù)聚類新框架——spearman次抽樣聚類分類（Spearman subsampling-clustering-classification,SSCC）。SSCC大大提高了以多個真實數(shù)據(jù)集為基準(zhǔn)的各種最先進算法的聚類精度、魯棒性和計算效率。在一個擁有68578個人類血細胞的數(shù)據(jù)集上，與廣泛使用的軟件包SC3相比，SSCC在聚類準(zhǔn)確性和50倍加速方面實現(xiàn)了20%的改進，但只消耗了66%的內(nèi)存使用。與K均值相比，SSCC的精度提高了3倍。SSCC的R實現(xiàn)可在https://github.com/japrin/ssclus上獲得

單細胞RNA測序（scrna-seq）通過揭示高分辨率單個細胞的異質(zhì)性，徹底改變了轉(zhuǎn)錄組學(xué)研究。聚類已成為識別細胞類型、描述其功能狀態(tài)和推斷潛在細胞動力學(xué)的常規(guī)分析手段[4-10]。已經(jīng)開發(fā)了多種聚類算法，包括Seurat[11]、SC3[12]、Simlr[13]、Zifa[14]、CIDR[15]、SNN-Cliq[16]和Corr[17]。這些算法大大提高了scrna-seq數(shù)據(jù)的聚類精度，但往往具有較高的計算復(fù)雜度，阻礙了這些優(yōu)雅算法向大規(guī)模scrna-seq數(shù)據(jù)集的擴展。隨著scrna-seq技術(shù)的快速發(fā)展，吞吐量已從最初的數(shù)百個細胞增加到現(xiàn)在的數(shù)萬個細胞。對來自多個運行甚至跨多個研究的scrna-seq數(shù)據(jù)集的綜合分析進一步加劇了計算困難。因此，需要能夠高效、準(zhǔn)確地對單個單元進行聚類的算法。

為了處理多個大規(guī)模scrna-seq數(shù)據(jù)集，通過將大數(shù)據(jù)集降采樣或卷積為小數(shù)據(jù)集或通過使用新的軟件實現(xiàn)加速計算，提出了特殊的計算策略。這些戰(zhàn)略已經(jīng)達到了不同的成功水平，但還沒有充分解決這些挑戰(zhàn)?？紤]到高效、準(zhǔn)確的聚類工具對大規(guī)模scrna-seq數(shù)據(jù)分析的重要性，本文提出了一種新的計算框架，即基于機器學(xué)習(xí)技術(shù)的Spearman次抽樣聚類分類（SSCC），包括特征工程和隨機投影，以提高聚類的準(zhǔn)確性和有效性。對各種scrna-seq數(shù)據(jù)集進行基準(zhǔn)測試表明，與目前的解決方案相比，SSCC可以在保持高聚類精度的同時，將計算復(fù)雜度從O（n2）降低到O（n）。此外，新的計算框架的靈活性允許我們的方法進一步擴展和適應(yīng)于scrna-seq數(shù)據(jù)分析的廣泛應(yīng)用。

框架概述

在處理大型scrna-seq數(shù)據(jù)集的可用解決方案中，具有次采樣和分類的集群[12,19]具有線性復(fù)雜性，即O（N）。這種框架一般由四個步驟組成（圖1a）。（1）利用基因和細胞過濾、歸一化等數(shù)據(jù)預(yù)處理技術(shù)構(gòu)建基因表達矩陣；（2）將細胞分為兩個子集，分別進行亞采樣聚類和分類；（3）將用于聚類的子集細胞分為多個聚類。ng k-means[23]、層次聚類[24]、密度聚類[25]或?qū)ｉT為scrna seq開發(fā)的算法；以及（4）監(jiān)督算法，如k-nearest neighbors[26]、支持向量機（SVMS）[27]或隨機森林[28]用于根據(jù)第三步是聚類結(jié)果。為了簡單起見，我們將這個現(xiàn)有框架稱為子抽樣聚類分類（scc）。由于聚類是一個耗時且內(nèi)存耗盡的過程，因此通過子采樣將這一步驟限制在一個小的單元子集上，可以利用有監(jiān)督機器學(xué)習(xí)算法的效率，大大降低從O（n2）到O（n）的計算成本。然而，建立在一小部分細胞原始基因表達數(shù)據(jù)基礎(chǔ)上的分類器，由于原始數(shù)據(jù)的噪聲和細胞的數(shù)量少，可能存在缺陷和偏差，從而影響了整個細胞標(biāo)簽分配的準(zhǔn)確性。

圖1。快速聚類大規(guī)模scrna-seq數(shù)據(jù)集的兩個計算框架a.sc3中提出的原始計算框架（簡稱scc）包括四個主要步驟：
（1）構(gòu)建基因表達矩陣；
（2）通過細胞亞擴增將矩陣分為兩部分。
（3）將子樣本細胞聚類；
（4）將未完成的細胞分類為聚類。

b.本研究中提出的新計算框架（參考SFCC）。在聚類和分類之前添加一個特征構(gòu)造步驟。整個框架包括五個步驟：
（1）構(gòu)建基因表達矩陣；
（2）通過細胞子采樣將矩陣分為兩部分；
（3）將子采樣/未采樣的細胞投影到特征空間；
（4）將子采樣的細胞聚集到特征空間；
（5）對uns進行分類。在特征空間中將單元格合并為簇。
scrna-seq，單細胞RNA測序；sc3，單細胞共識聚類；scc，亞采樣聚類；sfcc，亞采樣特征聚類。

在這里，我們提出了一個新的計算框架，通過在SCC中添加一個特征工程/投影步驟來集群大型scrna-seq數(shù)據(jù)（圖1b）。與SCC相似，基因表達矩陣首先通過基因和細胞過濾和歸一化構(gòu)建（步驟1，圖1b），然后隨機分為兩個子集，分別進行聚類和分類（步驟2；圖1b）。與直接使用基因表達原始數(shù)據(jù)的scc不同，我們的新框架將細胞投影到特征空間（步驟3；圖1b）中進行聚類（步驟4；圖1b）和分類（步驟5；圖1b）。

由于新框架的特點是具有聚類分類策略的二次抽樣，因此我們將其命名為sfcc。具體來說，我們將特征構(gòu)造分為兩個步驟：

（1）將特征提取技術(shù)應(yīng)用于需要聚類的單元；
（2）根據(jù)特征提取方法的選擇，將分類單元投影到構(gòu)建的特征空間中。

機器學(xué)習(xí)領(lǐng)域的許多成熟技術(shù)可以通過這兩個步驟加以利用。例如，主成分分析（PCA）[29]可用于首先為正在進行聚類的單元構(gòu)造特征，而合成的加載向量可用于線性變換，以投影單元，以便分類到特征空間。在sfcc框架的每個步驟中選擇不同的算法將形成不同的管道，用于集群大規(guī)模scrna-seq數(shù)據(jù)集。為了減少算法組合的總數(shù)，本文重點比較了各種特征工程算法的性能。我們將基因和細胞過濾、歸一化、亞采樣和分類算法作為實踐中常用的算法?，F(xiàn)有的SCC策略可以看作是SFCC的一個特例，其中原始數(shù)據(jù)空間是特征空間。

本研究所涉及的特征工程技術(shù)包括基于距離的方法（歐幾里得和余弦）、基于相關(guān)性的方法（皮爾遜[30]和斯皮爾曼[31]相關(guān)性）和基于神經(jīng)網(wǎng)絡(luò)的方法（自動編碼器）[32]。對于基于距離和相關(guān)的方法，直接使用聚類的細胞的距離/相關(guān)矩陣作為其特征，使用分類和聚類的細胞之間的距離/相關(guān)矩陣來構(gòu)建分類的細胞特征子集。對于自動編碼器，首先利用待聚類細胞的基因表達數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型，然后通過訓(xùn)練后的模型的編碼函數(shù)將所有細胞投射到特征空間中。為了獲得獨立于聚類算法的評估結(jié)果，我們使用輪廓值（silhouette values）[33]來檢查這些特征工程方法的全局性能。在全局評價的基礎(chǔ)上，選擇最有效的方法SSCC和具有斯皮爾曼相關(guān)的SFCC作為特征構(gòu)建方法，進行進一步評價。

scRNA-seq datasets used in this study

我們使用七個scrna-seq數(shù)據(jù)集來評估特征空間中的聚類性能。這些數(shù)據(jù)包括Kolodziejczyk數(shù)據(jù)集[34]、花粉數(shù)據(jù)集[8]、Usoskin數(shù)據(jù)集[9]、Zeisel數(shù)據(jù)集[10]、鄭數(shù)據(jù)集[5]、PBMC 68 K數(shù)據(jù)集[18]和Macosko數(shù)據(jù)集[19]。

大規(guī)模scrna-seq數(shù)據(jù)的可用性迫切需要高效和準(zhǔn)確的集群工具。目前，一些scrna-seq數(shù)據(jù)分析包已被提議解決這一挑戰(zhàn)。在這些工具中，sc3[12]、seurat[11]和dropclust[20]采用了scc策略，bigscale[21]采用卷積策略，通過貪婪的搜索算法將相似的單個單元合并為巨型單元，scanpy[22]使用python作為編程語言來加速集群過程。雖然這些策略大大提高了大型scrna-seq數(shù)據(jù)分析的效率，但仍有很大的改進空間。特別是SCC策略存在著子采樣帶來的偏差，盡管它可以將計算復(fù)雜度從O（n2）降低到O（n），但這可能會大大降低聚類的準(zhǔn)確性和魯棒性。在這里，我們將特性工程和投影技術(shù)引入到SCC框架中，并提出SFCC作為替代方案。特別是，以斯皮爾曼關(guān)聯(lián)作為特征工程和投影方法，我們建立了一個稱為SSCC的框架，它可以顯著提高許多通用和特殊設(shè)計的聚類算法的聚類精度和一致性。對真正的scrna-seq數(shù)據(jù)集的評估，包括各種scrnaseq技術(shù)、測序深度和生物體，證明了SSCC優(yōu)越性能的穩(wěn)健性。因此，SSCC有望成為一個有用的計算框架，進一步釋放scrna-seq未來的強大功能。

簡單單小區(qū)RNAseq數(shù)據(jù)聚類(sscClust)是一個實現(xiàn)簡單使用聚類管道的包。單細胞RNAseq數(shù)據(jù)聚類通常由變量基因選擇、降維、降維數(shù)據(jù)聚類等組成。目前，該包還封裝了針對單細胞RNAseq數(shù)據(jù)設(shè)計的其他聚類方法，包括SC3、ZinbWave等。

Simpler single cell RNAseq data clustering

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

單細胞大樣本量數(shù)據(jù)處理新方法||Simpler single cell RNAseq data clustering

單細胞大樣本量數(shù)據(jù)處理新方法||Simpler single cell RNAseq data clustering

框架概述

scRNA-seq datasets used in this study

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

單細胞大樣本量數(shù)據(jù)處理新方法||Simpler single cell RNAseq data clustering

框架概述

scRNA-seq datasets used in this study

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av