
前情回顧
Seurat 4.0 ||單細(xì)胞數(shù)據(jù)分析工具箱有更新
Seurat 4.0 ||單細(xì)胞多模態(tài)數(shù)據(jù)整合算法WNN
Seurat 4.0 || 分析scRNA和表面抗體數(shù)據(jù)
Seurat 4.0 || WNN整合scRNA和scATAC數(shù)據(jù)
Seurat 4.0 || 單細(xì)胞PBMC多模態(tài)參考數(shù)據(jù)集
Seurat 4.0 || 單細(xì)胞BMNC多模態(tài)參考數(shù)據(jù)集
Seurat教程上新||Mixscape : 用多模態(tài)單細(xì)胞數(shù)據(jù)篩選免疫檢查點(diǎn)
2020年10月,紐約基因組所( New York Genome Center )的 Satija Lab團(tuán)隊(duì)開發(fā)的單細(xì)胞分析工具Seurat升級到了4.0,其特性之一是開發(fā)了加權(quán)鄰近(weighted-nearest neighbor,WNN)算法來分析多模態(tài)數(shù)據(jù)。所謂多模態(tài)(multimodal )是指同時(shí)在一個(gè)細(xì)胞內(nèi)測量分屬于(廣義?)中心法則不同過程的特征(如,RNA,ATAC,膜蛋白等)。直觀地說,這可以從多個(gè)側(cè)面反映細(xì)胞的真實(shí)狀態(tài),也會進(jìn)一步細(xì)化我們對細(xì)胞行為與狀態(tài)的理解,這對我們研究生命發(fā)育、疾病形成的重要作用是不言而喻的。我們知道,如果是單一模態(tài)的數(shù)據(jù),如RNA,只是一個(gè)側(cè)面;如果只是獨(dú)立研究,如分別研究RNA和膜蛋白,許多時(shí)候不能很好的相互解釋。在單細(xì)胞面前我們都是貪玩的孩子,不能只摸到象牙就說這是根筷子。

Seurat 4.0 提出WNN是在這樣的考慮之下的,重要的是目前的技術(shù)已經(jīng)允許我們同時(shí)測量多模態(tài)數(shù)據(jù)了,如CITE-seq可以同時(shí)測得RNA和表面蛋白,2020年10X公司也推出了同時(shí)測RNA和ATAC的商業(yè)解決方案,空轉(zhuǎn)(ST)2019年也已經(jīng)面市。數(shù)據(jù)產(chǎn)生需要新的數(shù)學(xué)框架來整合他們。
WNN算法細(xì)節(jié)以及應(yīng)用實(shí)例可以在Satija Lab團(tuán)隊(duì)的(預(yù)印本)文章Integrated analysis of multimodal single-cell data中查看閱讀。本文是在學(xué)習(xí)Seurat 4.0 教程之后的體會,以饗關(guān)心單細(xì)胞技術(shù)發(fā)展的華語同行。謬誤在所難免,承蒙斧正,不勝感激。
不變
Seurat的框架基本是沒變的。這對單細(xì)胞數(shù)據(jù)分析來說是一件好事,因?yàn)槲覀冇龅竭^糟糕的情況:除了R包名字沒變之外,一切都變了的情況。如monocle的2和3,與其說是不同版本不如說是不同的R包了。熟悉Seurat v3的同行應(yīng)該能夠平穩(wěn)地過渡到Seurat v4。雖然引入了大量的新功能,但v3的工作流程、函數(shù)和語法,可視化方案在這次更新中基本沒有變化。此外,以前在Seurat v3中生成的Seurat對象可以無縫地裝載到Seurat v4中以進(jìn)行進(jìn)一步分析。
有一點(diǎn)提示下,這幾乎是語義上的:“整合”。Seurat V3 一度被認(rèn)為是整合(Integrate,CCA+MNN)不同RNA數(shù)據(jù)集的標(biāo)桿工具,在其文章Comprehensive Integration of Single-Cell Data中提到:Seurat v3引入了集成多個(gè)單細(xì)胞數(shù)據(jù)集的新方法。這些方法的目的是識別存在于不同數(shù)據(jù)集的共享的細(xì)胞狀態(tài),即使它們是從不同的個(gè)體、實(shí)驗(yàn)條件、技術(shù)平臺甚至物種,用到的函數(shù)是FindIntegrationAnchors。業(yè)內(nèi)有不少拿它和去批次的工具在一起做benchmark,其實(shí)這不是一回事。強(qiáng)調(diào),整合與批次不是一回事。在V4 中整合不同的RNA數(shù)據(jù)集你依然可以用‘FindIntegrationAnchors’。在V4的WNN中也有一個(gè)“整合”,這里的整合多為多模態(tài)數(shù)據(jù)之間的整合,用到的函數(shù)FindMultiModalNeighbors。可見,這個(gè)函數(shù)在v3中對應(yīng)的位置應(yīng)該是FindNeighbors,即構(gòu)建細(xì)胞間的圖結(jié)構(gòu)用的部分。
我們可以用pacman包來看看新舊版本有哪些函數(shù)的變化。
packageVersion("Seurat")
[1] '3.9.9.9005'
library(pacman)
v4fun<-p_functions("Seurat")
setdiff(v4fun,v3fun) # 我存的v3的所有函數(shù)
[1] ".__C__IntegrationAnchorSet" ".__C__ModalityWeights" ".__C__TransferAnchorSet" "CalcPerturbSig"
[5] "DEenrichRPlot" "FindMultiModalNeighbors" "FindSubCluster" "FoldChange"
[9] "Graphs" "IntegrateEmbeddings" "MappingScore" "MapQuery"
[13] "MixscapeHeatmap" "MixscapeLDA" "NNPlot" "PlotPerturbScore"
[17] "PredictAssay" "PrepLDA" "ProjectUMAP" "RunLDA"
[21] "RunMixscape" "RunSPCA"
幾多
看了預(yù)印本的文章Integrated analysis of multimodal single-cell data之后覺得WNN簡直就是單細(xì)胞界的統(tǒng)一場論:可以把單細(xì)胞內(nèi)的隱藏表達(dá)矩陣都可以整合到一個(gè)Seurat對象中,偉大。但是在重現(xiàn)了V4的教程之后,特別是看到教程RNA+膜蛋白和教程RNA+ATAC是分開的之后,覺得V4沒有那么激進(jìn):不是一個(gè)教程同時(shí)整合RNA+ 膜蛋白+ ATAC+空轉(zhuǎn)。這也許不是算法上的,而是技術(shù)上的:目前還沒有技術(shù)可以這么測?,F(xiàn)階段WNN的定位應(yīng)該是為【scRNA+】提供解決方案。
幾才算多呢?
在WNN中所謂的加權(quán)主要是給不同模態(tài)的數(shù)據(jù)以不同的權(quán)重,比如RNA和膜蛋白中,膜蛋白的權(quán)重要高一些,因?yàn)樗咏鎸?shí)狀態(tài)(RNA不容易看到?)。在算法中,多模態(tài)數(shù)據(jù)可以看作是一個(gè)多分類的過程,如果把每一個(gè)模態(tài)看作我們對細(xì)胞的一層感知機(jī),多模態(tài)就是多層感知機(jī)(機(jī)器學(xué)習(xí)的同行看過來)。隨著模態(tài)的增加,就像我們提示過的:要以數(shù)據(jù)庫的思維來理解單細(xì)胞數(shù)據(jù)。
又如本文的封面所述,在單細(xì)胞技術(shù)的早期,數(shù)據(jù)分析像一本精裝書(Hardcover)很精美很細(xì)致,每個(gè)技術(shù)的進(jìn)步都帶來驚喜。隨著數(shù)據(jù)的積累,成本的降低,技術(shù)普及,特別是多模態(tài)技術(shù)的發(fā)展,要把多模態(tài)的數(shù)據(jù)解釋清楚也就愈發(fā)需要生物學(xué)的知識,此時(shí)的單細(xì)胞數(shù)據(jù)分析就像一本簡裝書(Paperback):可能需要一個(gè)團(tuán)隊(duì)來讀。這也是我們一直主張的:建立自己的單細(xì)胞數(shù)據(jù)分析團(tuán)隊(duì)。
啟示錄
單細(xì)胞技術(shù)本身是在NGS技術(shù)基本成熟條件下發(fā)展出來的,所以數(shù)據(jù)可以超指數(shù)增長;NGS的測序和生信大部分可以擴(kuò)展到單細(xì)胞水平上,所以獲得數(shù)據(jù)和分析工具并不難。單細(xì)胞數(shù)據(jù)分析可以快速入門,一如某上聯(lián)所述:降維聚類必知必會。但是,當(dāng)我們把單細(xì)胞數(shù)據(jù)分析的物理要素(數(shù)據(jù),服務(wù)器,軟件)配齊后,我們依然面臨:數(shù)據(jù)如何挖,故事如何講的科學(xué)問題。多模態(tài)技術(shù)的發(fā)展,對生物學(xué)背景提出了進(jìn)一步的要求。之前的scRNA數(shù)據(jù),就是表達(dá)量咯,不管是均一化,標(biāo)準(zhǔn)化,表達(dá)量高的還是高的,低的還是低的,一聚類,高的和高的在一起。如果你是一個(gè)數(shù)據(jù)科學(xué)家,翻開自己工具箱,很容易去分析單細(xì)胞數(shù):一個(gè)矩陣而已。但是,RNA和ATAC可不是直接比較表達(dá)量就可以的呀,這時(shí)候,打開工具箱,還需要另一個(gè)裝滿生物學(xué)問題的急救包。
一如前蘇聯(lián)百科全書式的教授柳比歇夫所比喻的:蠕蟲那么長,人生啊可是那么短!在這里,我驚嘆:單細(xì)胞那么大,宇宙可是那么小呀!
亞歷山大·亞歷山德羅維奇·柳比歇夫(1890年4月5日--1972年8月31日),前蘇聯(lián)的昆蟲學(xué)家、哲學(xué)家、數(shù)學(xué)家。畢業(yè)于圣彼得堡國立大學(xué),一生發(fā)布了70余部學(xué)術(shù)著作,從分散分析、生物分類學(xué)到昆蟲學(xué)等。業(yè)余時(shí)間研究地蚤的分類,還寫過不少科學(xué)回憶錄。 各種各樣的論文和專著,他一共寫了五百多印張。五百印張,等于一萬二千五百張打字稿。即使以專業(yè)作家而論,這也是個(gè)龐大的數(shù)字。他不顧政治迫害,做了大量工作來反對和批評當(dāng)時(shí)屬于蘇聯(lián)生物遺傳學(xué)主流的李森科主義。還應(yīng)用數(shù)學(xué)方法來研究生物分類學(xué)。感興趣可以讀一本小書:《奇特的一生》。
https://www.njtierney.com/post/2017/10/27/change-pkg-name/
https://r-pkgs.org/namespace.html