很多朋友問是如何保持閱讀量的,其實(shí),大部分是之前的存貨。有一部分是每有會(huì)意,把之前的舊書拿出來再翻一翻,做個(gè)導(dǎo)圖放上來的。今天,我想和大家分享一點(diǎn)最近對(duì)單細(xì)胞數(shù)據(jù)科學(xué)的理解,總結(jié)為一句話:
單細(xì)胞數(shù)據(jù)科學(xué)四大過程組兩大知識(shí)領(lǐng)域與三重境界
說到單細(xì)胞數(shù)據(jù)科學(xué),不得不回憶起2020年的一個(gè)無名的夜晚,那一晚無意間瀏覽到一篇文章:
Eleven grand challenges in single-cell data science ,L?hnemann et al. Genome Biology (2020) 21:31
這是我第一次知道有單細(xì)胞數(shù)據(jù)科學(xué)這一概念,后來以single-cell data science(SCDS)作為關(guān)鍵字,做過幾次檢索,也讀過幾本數(shù)據(jù)科學(xué)的書籍,這個(gè)概念慢慢明晰起來。當(dāng)別人在討論單細(xì)胞數(shù)據(jù)分析、生信分析、數(shù)據(jù)挖掘的時(shí)候,我開了一個(gè)單細(xì)胞數(shù)據(jù)科學(xué)專欄。在單細(xì)胞生信分析到單細(xì)胞數(shù)據(jù)科學(xué)的過渡中,有一篇文章不得不提:
Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial. Mol. Syst. Biol. 2019, 15: e8746.
在這篇文章中,作者提出了單細(xì)胞數(shù)據(jù)分析的最佳實(shí)踐,也奠定了目前大部分單細(xì)胞數(shù)據(jù)分析的基本框架:

不管哪家公司做的數(shù)據(jù)分析,不管是哪個(gè)平臺(tái)的單細(xì)胞數(shù)據(jù),數(shù)據(jù)分析的基本流程逃不過這個(gè)流程。
現(xiàn)在看來,雖然這兩年單細(xì)胞技術(shù)也在發(fā)展,數(shù)據(jù)分析工具依然層出不窮,但是2020年的時(shí)候,數(shù)據(jù)分析的基本框架基本形成。這兩年大家基本上是在反芻前人的理念。
這并不妨礙我們依然可以發(fā)現(xiàn)許多新的見解,如任老師在一次訪談中提出:
- monocle把單細(xì)胞從分析離散的亞群推向刻畫發(fā)育的連續(xù)性。
- RNA velocity 把絕對(duì)定量擴(kuò)展到可變剪切。
- scomap把組織解離損失的空間結(jié)構(gòu)找回來
書讀百遍,其意自見。下面就來分享一下:?jiǎn)渭?xì)胞數(shù)據(jù)科學(xué)四大過程組兩大知識(shí)領(lǐng)域與三重境界。

四大過程組
單細(xì)胞數(shù)據(jù)科學(xué)的過程主要是:
產(chǎn)生矩陣。成熟的細(xì)胞解離、分離、細(xì)胞標(biāo)記、核酸捕獲、二代測(cè)序,為獲得高通量的單細(xì)胞表達(dá)矩陣提供了保證。也是單細(xì)胞數(shù)據(jù)科學(xué)的第一個(gè)過程組,也可以喚作實(shí)驗(yàn)過程組。這個(gè)過程組中可以選擇不同通量、不同平臺(tái)。
探索數(shù)據(jù)。獲得單細(xì)胞矩陣之后,接下來是簡(jiǎn)要探索一下數(shù)據(jù)的基本表現(xiàn),正所謂:降維聚類,必知必會(huì)。這個(gè)過程組中,最基本的品格是:探索時(shí)貪婪。從不同側(cè)面觀察數(shù)據(jù),選取不同特征表現(xiàn)數(shù)據(jù),不同分組間差異基因分析。數(shù)據(jù)探索的方法流程都比較成熟,如R語言生態(tài)下的Seurat,python生態(tài)下的scanpy,不需要太多的生物學(xué)背景。
推斷分析。與數(shù)據(jù)探索不同,推斷分析需要分析者具備一定的生物學(xué)背景,這樣的推斷才是有方向的,也才是有益的。推斷過程組可以分為兩個(gè)小方向:細(xì)胞方向的細(xì)胞軌跡、基因方向的調(diào)控與通路。
多方驗(yàn)證。隨著單細(xì)胞技術(shù)的發(fā)展,單細(xì)胞數(shù)據(jù)往往需要和其他技術(shù)或組學(xué)相互結(jié)合與驗(yàn)證。此過程組的基本品格是:探索時(shí)貪婪,驗(yàn)證時(shí)謹(jǐn)慎。
兩大知識(shí)領(lǐng)域
單細(xì)胞數(shù)據(jù)科學(xué)可以分為兩大知識(shí)領(lǐng)域,一個(gè)是細(xì)胞層面的細(xì)胞生物學(xué),一個(gè)是基因表達(dá)或者表觀的高通量多組學(xué)。
- 細(xì)胞層面的細(xì)胞生物學(xué),可以說是連接的是細(xì)胞表型,如細(xì)胞類型、細(xì)胞圖譜,細(xì)胞之間的關(guān)系。推薦的書籍有《細(xì)胞生物學(xué)》、《細(xì)胞》、《癌生物學(xué)》、《醫(yī)學(xué)免疫學(xué)》等。
- 基因表達(dá)或者表觀的高通量多組學(xué),可以說是連接的是分子機(jī)理,往往指向的是基因表達(dá)調(diào)控的特異性。推薦的書籍有《細(xì)胞分子生物學(xué)》、《基因X》、《分子生物學(xué)》、《高通量測(cè)序技術(shù)》等。
這兩大知識(shí)領(lǐng)域目前都是在不斷快速發(fā)展過程中,單細(xì)胞技術(shù)也在促進(jìn)我們不斷拓展這兩大知識(shí)領(lǐng)域的認(rèn)知邊界。
三重境界
說起三重境界,我們都不陌生。雖然我們已經(jīng)歸納出單細(xì)胞數(shù)據(jù)科學(xué)有跡可循,但是這一點(diǎn)也不妨礙數(shù)據(jù)科學(xué)是一個(gè)需要探索、發(fā)掘、驗(yàn)證、攀登的科學(xué)這一事實(shí)。特別是單細(xì)胞技術(shù)在如此火熱的大環(huán)境下,不少朋友想吃快餐,昨晚連夜釋放的數(shù)據(jù),天一亮就從網(wǎng)上復(fù)制代碼來分析自己的數(shù)據(jù)。
我們不要忘記單細(xì)胞數(shù)據(jù)科學(xué)也有三重境界:
- ‘昨夜西風(fēng)凋碧樹,獨(dú)上高樓,望盡天涯路’,此第一境也。
- ‘衣帶漸寬終不悔,為伊消得人憔悴’,此第二境也。
- ‘眾里尋他千百度,驀然回首,那人正在燈火闌珊處’,此第三境也?!?/li>
【降維聚類,必知必會(huì)】很簡(jiǎn)單,能配置分析環(huán)境和復(fù)制代碼就可以。
具備一定的生物學(xué)背景之后,【探索時(shí)貪婪,驗(yàn)證時(shí)謹(jǐn)慎】也不是難事。
但是真正走過四大過程組,諳熟兩大知識(shí)領(lǐng)域,歷盡三重境界方才修得單細(xì)胞數(shù)據(jù)科學(xué)家之名。
在節(jié)目的最后,作者本人在單細(xì)胞數(shù)據(jù)科學(xué)四大過程組兩大知識(shí)領(lǐng)域與三重境界的基礎(chǔ)上,寄語單細(xì)胞數(shù)據(jù)科學(xué)新人六大箴言:
- 生信雖好,不要貪杯哦。編程語言先學(xué)一門,數(shù)據(jù)分析技術(shù)先學(xué)一種,不要并行開搞。
- 相信我,你并不孤獨(dú)。大部分你遇到的問題,別人都已經(jīng)遇到過了,并已經(jīng)解決了,又并寫出來發(fā)在網(wǎng)上了。
- 基礎(chǔ)不牢,地動(dòng)山搖。雖然單細(xì)胞數(shù)據(jù)下機(jī)之后,就處于不斷貶值的過程中,但是如果貪快,不求甚解地分析數(shù)據(jù),往往會(huì)帶來無盡的返工。
- 先練兵,再打仗。先學(xué)習(xí)如何分析數(shù)據(jù),再利用學(xué)到的數(shù)據(jù)分析知識(shí),去分析自己的的數(shù)據(jù)。而不是,數(shù)據(jù)下機(jī)之后,復(fù)制網(wǎng)上的代碼去跑自己的數(shù)據(jù)。
- 輸出倒閉輸入。教,才是最好的學(xué)習(xí)。學(xué)到的要交給別人,賺到的要花出去。
- 讀源碼,解決實(shí)際問題。要勇于,善于閱讀源碼、原文檔、原理。
加油,少年,開卷有益(juan,第一聲)。