【文獻(xiàn)分享】Benchmarking atlas-level data integration in single-cell genomics

本篇文章由德國(guó)Institute of Computational Biology,?Helmholtz Zentrum München 研究所的兩位科學(xué)家M. Colomé-Tatché&Fabian J. Theis于2022年發(fā)表在Nature methods

原文鏈接:?https://www.nature.com/articles/s41592-021-01336-8#MOESM1

文章用到的代碼/流程

pipeline:https://github.com/theislab/scib-pipeline

處理代碼:https://github.com/theislab/scib?;?https://github.com/theislab/scib-reproducibility

文章亮點(diǎn):

1,建立各種打分機(jī)制,評(píng)估了16種integrate methods 在基因表達(dá)(scRNA-seq),染色質(zhì)開(kāi)放(scATAC-seq),以及模擬數(shù)據(jù)上的效果,結(jié)果評(píng)估主要包含了bio-conservation 和 batch effect 兩個(gè)方面

2,開(kāi)放了benchmarking用到的代碼,方便大家用來(lái)評(píng)估和開(kāi)放新工具

背景

目前各種單細(xì)胞測(cè)序方法層出不窮,單細(xì)胞測(cè)序的數(shù)據(jù)也與日俱增,合理的將各種不同來(lái)源,不同組織,或者不同技術(shù)產(chǎn)生的單細(xì)胞數(shù)據(jù)整合在一起(在去除batch effect的同時(shí),保留bio-conversation),才能提供可靠的下游分析,進(jìn)行生物學(xué)判斷。 目前有大于49種的integrate工具可用于scRNA-seq數(shù)據(jù)的整合,但是缺乏一個(gè)量化的對(duì)各種方法進(jìn)行評(píng)估選擇,以前類(lèi)似的benchmarking的文章僅僅對(duì)低數(shù)據(jù)量和低復(fù)雜度的數(shù)據(jù)進(jìn)行了整合和去除batch的評(píng)估,不夠全面。


實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)設(shè)計(jì)FIg 1

13個(gè)integrate tasks 通過(guò)是否做HVG/scaling 四種方式進(jìn)行預(yù)處理,得到預(yù)處理后的結(jié)果,之后用16種integate 方法對(duì)預(yù)處理的結(jié)果進(jìn)行integate分析,不同工具可能會(huì)得到3種結(jié)果(Graph,embedding, corrected features)。對(duì)得到的結(jié)果從1,batch removal ; 2, biological variance conservation; 3,scalability 4,usability 方面評(píng)估integrate的表現(xiàn)

實(shí)驗(yàn)流程拆分思維導(dǎo)圖


樣本:

tasks table


結(jié)果:

human immune cell task

這個(gè)task 來(lái)自5篇文獻(xiàn),包括人的pbmc和bone marrow 所以作者認(rèn)為這里有10個(gè)batch。綜合評(píng)分Scanorama (embedding), FastMNN (embedding), scANVI and Harmony 此task中表現(xiàn)最好。

鑒于不同方法得到的結(jié)果表現(xiàn)形式不同,將不同工具得到的結(jié)果分開(kāi)評(píng)估,例如SAUCIE 可以得到graph和embedding的結(jié)果,就作為SAUCIE-gragh 和SAUCIE-embedding 分開(kāi)計(jì)算score

Fig2a

Scanorama 因?yàn)楹芎玫膇ntegrate了Villani (Smart-seq2)和10X的batch而獲得較高評(píng)分

scANVI 沒(méi)有很好的integrate villani batch, 并且Erythrocytes 呈現(xiàn)出明顯的oetjen batch的偏向性

scANVI 和FastMNN, 都在CD14+?monocytes群中表現(xiàn)出10x的batch

Harmony的isolated label F1 bio-conservation score最低

fig2b-c

overall scoreS_{{\mathrm{overall}},i} = 0.6 \times S_{{\mathrm{bio}},i} + 0.4 \times S_{{\mathrm{batch}},i}.

具體的計(jì)算大家可以去看方法,太復(fù)雜啦。


scRNA(5) + simulation tasks(2)

對(duì)5個(gè)scRNA和2個(gè)模擬task測(cè)試匯總顯示不同工具對(duì)batch removal 和biological variance conservation的權(quán)衡

最佳工具

simpler tasks:?Seurat v3 ;Harmony

complex real data:Scanorama;scVI?

all tasks: scGen ; scANVI

在preprocessing的選擇上

????????HVG selection 在大多數(shù)的task中有較高的batch removal 和bio- conversation score

? ? ? ? full gene set 在trajectory 和cell-cycle conservation中得分較高

? ? ? ? scaling 有較高的batch removal 得分和較低的bio conversation 得分

綜合比較

scANVI, Scanorama 和 scVI 在scRNA real data中表現(xiàn)最好。

總體來(lái)說(shuō)基于mutual nearest neighbors的方法去除batch的效果比較好,此外deep learning-based methods 結(jié)合細(xì)胞注釋,在去除強(qiáng)batch和保留生物學(xué)變化上效果好

Fig3


mouse brain scATAC-seq tasks

scATAC-seq features:peaks, windows, gene(gene activity)

基本上所有的方法在scATAC-seq中的表現(xiàn)都不如scRNA-seq,在scRNA中表現(xiàn)好的方法在Gene activity的評(píng)分中相對(duì)也比較高。

Liger 和harmony 大力度去除batch effect (而不是bio-conversation),在scATAC的integrate中表現(xiàn)更好。

fig4b-c


scalability和usability

scalability 主要是對(duì)task運(yùn)行過(guò)程中的cpu time和peak memory 進(jìn)行比較,具體結(jié)果圖在Extended Data fig. 7-8

作者通過(guò)下圖的10項(xiàng)標(biāo)準(zhǔn)對(duì)工具的實(shí)用性進(jìn)行評(píng)估,Harmony, Seurat v3 和 BBKNN 對(duì)初學(xué)者友好,相反, DESC, scANVI 和 trVAE上手比較困難

Extended Data Fig.9

Guide

Fig5a


本文使用的其他生信工具:

Splatter package:生成stimulated data

Scanpy:preprocessing

scikit-learn27?(v.0.22.1): NMI;ARI

anndata2ri:converted between R and Python data formats


隨便聊聊

本文的各種打分方法實(shí)在讓人眼花撩亂,希望后面有時(shí)間能好好看明白。

文章最后的結(jié)論基本上還是針對(duì)不同的數(shù)據(jù)特征用不同的方法,或許沒(méi)有工具可以識(shí)別數(shù)據(jù)特征然后自動(dòng)匹配方法嗎?加上現(xiàn)在多組學(xué)技術(shù)的興起,不知道不同組學(xué)之間的integrate機(jī)制又是怎樣的。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容