單細胞數(shù)據(jù)科學中的里程碑與檢查點

我們曾經(jīng)在一節(jié)公開課里面提到過單細胞數(shù)據(jù)科學的幾個主特點:

  • 繼承了很多Bulk的分析方法
  • 商業(yè)開源,容易上手
  • 開發(fā)速度快
  • 教程文檔豐富
  • 數(shù)據(jù)分析過程非線性

基于以上特點,我們發(fā)現(xiàn)單細胞數(shù)據(jù)科學的學習曲線往往不是S上升形的,而是快速上升形成單峰(在降維聚類那)而后略有下降再緩慢上升的過程。

Phase1:以好奇沖動為主要特征。單細胞數(shù)據(jù)科學比較火(Gui),做起來倍有面兒,而且發(fā)現(xiàn)很多分析點很容易就跑通了(商業(yè)開源)。拿到一張和CNS結構類似的圖譜,很是開心。每天也充滿干勁,學習的動力也足。這個看文獻跑教程的快感大概持續(xù)一個月。

Phase2:以迷茫依賴為主要特征。一般做完了降維聚類以及軌跡推斷(探索性數(shù)據(jù)分析)之后,一些朋友可能做完了他們所能想到的所有單細胞分析點之后,迷茫情緒開始彌漫開來:該做的分析我都做了,但還是沒有找到那個點。我聚成了十八個類,也都做了細胞類型注釋/軌跡推斷/富集分析/轉(zhuǎn)錄因子調(diào)控,但依然不是一個完整的故事。于是期望有一個大佬來在關鍵的地方點一下,因為沒有這一點的話,之前的數(shù)據(jù)分析不過是在堆砌工具。其實每種工具只是提供了一個數(shù)據(jù)視角,透過這個視角看能不能發(fā)現(xiàn)什么。故事的結局往往是:在某個夜深人靜的午夜,透過這么多側面,靈感一現(xiàn),狠下心來敲定故事的落腳點。這個過程不好評估。

Phase3:經(jīng)過了Phase1/Phase2的鍛煉,這個故事既有了骨架(工具),也有了靈魂(落腳點),也許之前的質(zhì)控降維聚類都要重新做(如cellranger做的分析,測序公司做的),好處是這些工具和教程都會了,很快就可以在技術上實現(xiàn)。站在這個谷底回望來時路,其實之前做的工作不能算作研究,只是在學習工具的使用和背景知識而已,而Phase3這里我們具備了研究的能力和那個點。這時候研究才剛剛開始:再次審視數(shù)據(jù),驗證實驗等等。

Phase4:這是少數(shù)人能進入的領地。這一階段的高人往往開始關注比工具的使用和故事的結構更為宏觀的主題,如引領行業(yè)方向,算法的開發(fā)等。

那么我們說的單細胞數(shù)據(jù)科學發(fā)生在哪個階段呢:Phase3。

在Phase3之前不過是學習如何做研究,也就是為進入單細胞數(shù)據(jù)科學做數(shù)據(jù)/技能/背景方面的準備工作。我們先看看數(shù)據(jù)科學的一般流程是怎樣的,在《R語言數(shù)據(jù)科學》中作者為我們勾勒出數(shù)據(jù)科學的一般流程:

這個流程圖也剛好對應著單細胞數(shù)據(jù)科學過程的里程碑和檢查點事件。首先,我們?yōu)槭裁葱枰锍瘫季S?是因為這個可以有序地推進我們的工作,知道哪一步到哪了,在那里需要注意什么。有了里程碑,也可以避免反復的工作,不必擔心上一步做的合適不合適。

里程碑事件一:數(shù)據(jù)導入。這個看起來很簡單,但是依然有些需要注意的事項。如果能夠順利地導入數(shù)據(jù),說明已經(jīng)具備了基本的數(shù)據(jù)分析能力。在單細胞數(shù)據(jù)分析過程中,數(shù)據(jù)的導入除了直接讀矩陣之外,每每要調(diào)用不同的分析工具也需要進行數(shù)據(jù)格式的轉(zhuǎn)化。數(shù)據(jù)轉(zhuǎn)化時盡量保證行和列都不要有全零的情況,也就時每次subset的時候需要注意這個。這時候還應該把數(shù)據(jù)質(zhì)控做好。

里程碑二:數(shù)據(jù)整理。數(shù)據(jù)整理在單細胞數(shù)據(jù)分析中往往對應數(shù)據(jù)整合與批次處理。要避免的一個想法是:拿到數(shù)據(jù)就去批次,應該先用merge的方式在沒有任何數(shù)據(jù)矯正之前查看數(shù)據(jù)的狀態(tài),來判斷是否需要去批次(或其他處理)。原則是:不要處理未知的變量,因為你不知道自己去除的是什么。這時候應該確定圖譜的基本結構。確定是整合還是merge,是tsne還是umap。

里程碑三:聚類分析。聚類其實屬于數(shù)據(jù)科學流程中的模型,在單細胞數(shù)據(jù)分析中基本的分析單位是細胞群,請注意,而不是單個細胞。可以把聚類看作尋找數(shù)據(jù)中潛在模式的一種手段,可以多次利用聚類手段,實現(xiàn)不同目的。聚類可以結合clustree聚成不同的數(shù)量的類別,根據(jù)類別之間的關系來確定聚類數(shù)。這里一般有兩個聲音:一個是說先聚成大類,在大類中分出小類;一個說一步到位,先盡可能地多聚幾類,后面根據(jù)marker合并。這兩個策略都是可以的,工程上來說,后一種有更高的效率。這里應該確定數(shù)據(jù)集的聚類個數(shù),各個亞群在不同樣本來源的比例。

里程碑四:可視化。一篇文章也許只有fig7,而我們可能需要繪制幾百張圖??梢暬粌H是如何畫的問題,更多地是show什么的問題。懂忽略什么和懂得重視什么一樣重要??梢暬粌H是繪圖技巧問題,更多地是生物學問題論證的過程。這里我勸各位多停留幾分鐘,用多種形式可視化(哪怕是同一個問題),以不同的形式展現(xiàn)數(shù)據(jù),如果發(fā)現(xiàn)不了想講的問題,就是一直畫下去,直到畫出感興趣的點為止。

里程碑五:報告你的數(shù)據(jù)。在畫了兩三百頁PPT的圖之后,終于找到了一個主線可以把它們傳成一個故事了。這時候往往顯示出可重復分析是多麼的重要了,有可能你會發(fā)現(xiàn),由于代碼或者軟件版本(環(huán)境)的不同之前的圖重復不出來了。悲夫。一切準備停當,當我們開始把自己的CNS落實到紙上的時候,單細胞數(shù)據(jù)分析并沒有停止,而是變得更加微妙,不像一開始那樣大刀闊斧了。第一步是報告數(shù)據(jù)給你自己,然后是把數(shù)據(jù)報告給讀者。

里程碑六:引入第三方數(shù)據(jù)。是指想用已發(fā)表的數(shù)據(jù)或數(shù)據(jù)庫數(shù)據(jù)來豐富自己的故事,在這之前請確定自己的故事已經(jīng)掌握的很好了,而不是還在找點的過程中。因為第三方數(shù)據(jù)來源不均一,而且?guī)淼慕Y論很可能和手里重要的數(shù)據(jù)不一致(不管哪方面的)。除非這個第三方數(shù)據(jù)是您本來就很熟悉的,否則如無必要,勿增實體,雖然這幾乎已經(jīng)成為趨勢了。

其實本文在討論的是一個數(shù)據(jù)科學項目的生命周期問題,單細胞數(shù)據(jù)分析的終點在哪,文章見刊嗎?

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容