本篇文章由德國(guó)Institute of Computational Biology,?Helmholtz Zentrum München 研究所的兩位科學(xué)家M. Colomé-Tatché&Fabian J. Theis于2022年發(fā)表在Nature methods
原文鏈接:?https://www.nature.com/articles/s41592-021-01336-8#MOESM1
文章用到的代碼/流程
pipeline:https://github.com/theislab/scib-pipeline
處理代碼:https://github.com/theislab/scib?;?https://github.com/theislab/scib-reproducibility
文章亮點(diǎn):
1,建立各種打分機(jī)制,評(píng)估了16種integrate methods 在基因表達(dá)(scRNA-seq),染色質(zhì)開(kāi)放(scATAC-seq),以及模擬數(shù)據(jù)上的效果,結(jié)果評(píng)估主要包含了bio-conservation 和 batch effect 兩個(gè)方面
2,開(kāi)放了benchmarking用到的代碼,方便大家用來(lái)評(píng)估和開(kāi)放新工具
背景
目前各種單細(xì)胞測(cè)序方法層出不窮,單細(xì)胞測(cè)序的數(shù)據(jù)也與日俱增,合理的將各種不同來(lái)源,不同組織,或者不同技術(shù)產(chǎn)生的單細(xì)胞數(shù)據(jù)整合在一起(在去除batch effect的同時(shí),保留bio-conversation),才能提供可靠的下游分析,進(jìn)行生物學(xué)判斷。 目前有大于49種的integrate工具可用于scRNA-seq數(shù)據(jù)的整合,但是缺乏一個(gè)量化的對(duì)各種方法進(jìn)行評(píng)估選擇,以前類(lèi)似的benchmarking的文章僅僅對(duì)低數(shù)據(jù)量和低復(fù)雜度的數(shù)據(jù)進(jìn)行了整合和去除batch的評(píng)估,不夠全面。
實(shí)驗(yàn)設(shè)計(jì)

13個(gè)integrate tasks 通過(guò)是否做HVG/scaling 四種方式進(jìn)行預(yù)處理,得到預(yù)處理后的結(jié)果,之后用16種integate 方法對(duì)預(yù)處理的結(jié)果進(jìn)行integate分析,不同工具可能會(huì)得到3種結(jié)果(Graph,embedding, corrected features)。對(duì)得到的結(jié)果從1,batch removal ; 2, biological variance conservation; 3,scalability 4,usability 方面評(píng)估integrate的表現(xiàn)

樣本:

結(jié)果:
human immune cell task
這個(gè)task 來(lái)自5篇文獻(xiàn),包括人的pbmc和bone marrow 所以作者認(rèn)為這里有10個(gè)batch。綜合評(píng)分Scanorama (embedding), FastMNN (embedding), scANVI and Harmony 此task中表現(xiàn)最好。
鑒于不同方法得到的結(jié)果表現(xiàn)形式不同,將不同工具得到的結(jié)果分開(kāi)評(píng)估,例如SAUCIE 可以得到graph和embedding的結(jié)果,就作為SAUCIE-gragh 和SAUCIE-embedding 分開(kāi)計(jì)算score

Scanorama 因?yàn)楹芎玫膇ntegrate了Villani (Smart-seq2)和10X的batch而獲得較高評(píng)分
scANVI 沒(méi)有很好的integrate villani batch, 并且Erythrocytes 呈現(xiàn)出明顯的oetjen batch的偏向性
scANVI 和FastMNN, 都在CD14+?monocytes群中表現(xiàn)出10x的batch
Harmony的isolated label F1 bio-conservation score最低

overall score:
具體的計(jì)算大家可以去看方法,太復(fù)雜啦。
scRNA(5) + simulation tasks(2)
對(duì)5個(gè)scRNA和2個(gè)模擬task測(cè)試匯總顯示不同工具對(duì)batch removal 和biological variance conservation的權(quán)衡
最佳工具
simpler tasks:?Seurat v3 ;Harmony
complex real data:Scanorama;scVI?
all tasks: scGen ; scANVI
在preprocessing的選擇上
????????HVG selection 在大多數(shù)的task中有較高的batch removal 和bio- conversation score
? ? ? ? full gene set 在trajectory 和cell-cycle conservation中得分較高
? ? ? ? scaling 有較高的batch removal 得分和較低的bio conversation 得分
綜合比較
scANVI, Scanorama 和 scVI 在scRNA real data中表現(xiàn)最好。
總體來(lái)說(shuō)基于mutual nearest neighbors的方法去除batch的效果比較好,此外deep learning-based methods 結(jié)合細(xì)胞注釋,在去除強(qiáng)batch和保留生物學(xué)變化上效果好

mouse brain scATAC-seq tasks
scATAC-seq features:peaks, windows, gene(gene activity)
基本上所有的方法在scATAC-seq中的表現(xiàn)都不如scRNA-seq,在scRNA中表現(xiàn)好的方法在Gene activity的評(píng)分中相對(duì)也比較高。
Liger 和harmony 大力度去除batch effect (而不是bio-conversation),在scATAC的integrate中表現(xiàn)更好。

scalability和usability
scalability 主要是對(duì)task運(yùn)行過(guò)程中的cpu time和peak memory 進(jìn)行比較,具體結(jié)果圖在Extended Data fig. 7-8
作者通過(guò)下圖的10項(xiàng)標(biāo)準(zhǔn)對(duì)工具的實(shí)用性進(jìn)行評(píng)估,Harmony, Seurat v3 和 BBKNN 對(duì)初學(xué)者友好,相反, DESC, scANVI 和 trVAE上手比較困難

Guide

本文使用的其他生信工具:
Splatter package:生成stimulated data
Scanpy:preprocessing
scikit-learn27?(v.0.22.1): NMI;ARI
anndata2ri:converted between R and Python data formats
隨便聊聊
本文的各種打分方法實(shí)在讓人眼花撩亂,希望后面有時(shí)間能好好看明白。
文章最后的結(jié)論基本上還是針對(duì)不同的數(shù)據(jù)特征用不同的方法,或許沒(méi)有工具可以識(shí)別數(shù)據(jù)特征然后自動(dòng)匹配方法嗎?加上現(xiàn)在多組學(xué)技術(shù)的興起,不知道不同組學(xué)之間的integrate機(jī)制又是怎樣的。