大型單細(xì)胞數(shù)據(jù)分析解決方案

為什么要做大型單細(xì)胞數(shù)據(jù)分析

因?yàn)閱渭?xì)胞數(shù)據(jù)在呈指數(shù)增長,遇到大數(shù)據(jù)集只是早晚的問題。曾經(jīng)我們困惑一個(gè)物種的基因組那么大,如果給很多物種都測基因組的話,拿什么來存儲這些數(shù)據(jù)?隨著單細(xì)胞技術(shù)的成熟,測序成本的下降,眼見單細(xì)胞數(shù)據(jù)通量將會呈現(xiàn)超指數(shù)增長。在bulk時(shí)代所幾十例轉(zhuǎn)錄組會覺得已經(jīng)做了很多了,而單細(xì)胞時(shí)代少則幾千大則百萬的數(shù)據(jù)量。我們不能怪時(shí)代太快,只能怪自己沒有做好心理準(zhǔn)備。

Exponential scaling of single-cell RNA-seq in the past decade

如今在生命科學(xué)研究范式里,有了數(shù)據(jù)驅(qū)動(data-driven)的選項(xiàng)。那么,什么是數(shù)據(jù)驅(qū)動的呢?這一概念源于現(xiàn)代技術(shù)的進(jìn)步,不斷帶來大量系統(tǒng)、全面和深入的數(shù)據(jù)。當(dāng)范式改變時(shí),數(shù)據(jù)驅(qū)動新的科學(xué)發(fā)現(xiàn),而不是相反。能夠利用現(xiàn)有數(shù)據(jù)的研究人員能夠挖掘出意想不到的、不可預(yù)測的關(guān)系和新知識。與此同時(shí),計(jì)算能力、機(jī)器學(xué)習(xí)、人工智能和其他可用來處理這些數(shù)據(jù)的技術(shù)已經(jīng)顯著提高,并為那些成功將數(shù)據(jù)與自己的工作聯(lián)系起來的人提供了巨大的機(jī)會。

大型單細(xì)胞數(shù)據(jù)分析,涉及到多個(gè)dataset的處理,它往往即是科學(xué)上的也是工程上的,所以有一些項(xiàng)目管理的原則是適用的。如大型單細(xì)胞數(shù)據(jù)分析的周期/ 交付結(jié)果 等。而我們關(guān)注的是數(shù)據(jù)分析,在單細(xì)胞數(shù)據(jù)科學(xué)中有哪些策略來應(yīng)對大型單細(xì)胞數(shù)據(jù)分析呢?通??梢圆捎玫募夹g(shù)有:

  • 0, 降維

降維我們并不陌生,目前已經(jīng)廣泛地應(yīng)用到單細(xì)胞轉(zhuǎn)錄組的數(shù)據(jù)分析流程中了,如PCA。

  • 1,并行化策略

越來越多的分析工具開始允許用戶適用多線程和并行化策略分析數(shù)據(jù),如scenic的python版本以及Seurat的幾個(gè)消耗資源的函數(shù)。

  • 2,downsample

當(dāng)我們明確了單細(xì)胞數(shù)據(jù)分析的基本單位是細(xì)胞亞群而不是單個(gè)細(xì)胞的時(shí)候,在數(shù)據(jù)分析以及可視化的過程中應(yīng)用downsample在一個(gè)亞群內(nèi)隨機(jī)取子集的策略就會顯得很自然了。特別是在繪制熱圖時(shí)。

  • 3,pseudocell

同樣地,在某細(xì)胞亞群內(nèi)隨機(jī)選取小子集做基因表達(dá)量的平均,也是一個(gè)數(shù)據(jù)縮減的方法。其核心依然是:保留亞群內(nèi)均和亞群間差異,也即單細(xì)胞數(shù)據(jù)分析的基本單位是細(xì)胞亞群而不是單個(gè)細(xì)胞。

  • 4,C++重寫算法

當(dāng)需要處理大型的矩陣時(shí),如矩陣計(jì)算,轉(zhuǎn)置等,不用底層語言往往會把內(nèi)存吃完,特別是當(dāng)我們的數(shù)據(jù)中有很多零的時(shí)候。這時(shí),會不會底層語言就顯得很重要了。

5,項(xiàng)目管理在數(shù)據(jù)分析中的應(yīng)用

大型單細(xì)胞數(shù)據(jù)分析,其涉及到的dataset更多,分析周期也比一般的小圖譜要長,所以需要一些數(shù)據(jù)管理的經(jīng)驗(yàn)。

本文所說大型單細(xì)胞其實(shí)只是細(xì)胞數(shù)比較多,20W+,而沒有涉及到單細(xì)胞多模態(tài)的數(shù)據(jù)分析。同時(shí),數(shù)據(jù)分析的另一個(gè)趨勢:機(jī)器學(xué)習(xí),也沒有提到。這并不代表它們不重要。

Svensson, V., Vento-Tormo, R. & Teichmann, S. Exponential scaling of single-cell RNA-seq in the past decade. Nat Protoc 13, 599–604 (2018). https://doi.org/10.1038/nprot.2017.149
https://www.scilifelab.se/data-driven

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容