本篇文章由德國(guó)Institute of Computational Biology，?Helmholtz Zentrum München 研究所的兩位科學(xué)家M. Colomé-Tatché&Fabian J. Theis于2022年發(fā)表在Nature methods

原文鏈接：?https://www.nature.com/articles/s41592-021-01336-8#MOESM1

文章用到的代碼/流程

pipeline：https://github.com/theislab/scib-pipeline

處理代碼：https://github.com/theislab/scib?；?https://github.com/theislab/scib-reproducibility

文章亮點(diǎn)：

1，建立各種打分機(jī)制，評(píng)估了16種integrate methods 在基因表達(dá)（scRNA-seq），染色質(zhì)開(kāi)放(scATAC-seq)，以及模擬數(shù)據(jù)上的效果，結(jié)果評(píng)估主要包含了bio-conservation 和 batch effect 兩個(gè)方面

2，開(kāi)放了benchmarking用到的代碼，方便大家用來(lái)評(píng)估和開(kāi)放新工具

背景

目前各種單細(xì)胞測(cè)序方法層出不窮，單細(xì)胞測(cè)序的數(shù)據(jù)也與日俱增，合理的將各種不同來(lái)源，不同組織，或者不同技術(shù)產(chǎn)生的單細(xì)胞數(shù)據(jù)整合在一起（在去除batch effect的同時(shí)，保留bio-conversation），才能提供可靠的下游分析，進(jìn)行生物學(xué)判斷。目前有大于49種的integrate工具可用于scRNA-seq數(shù)據(jù)的整合，但是缺乏一個(gè)量化的對(duì)各種方法進(jìn)行評(píng)估選擇，以前類(lèi)似的benchmarking的文章僅僅對(duì)低數(shù)據(jù)量和低復(fù)雜度的數(shù)據(jù)進(jìn)行了整合和去除batch的評(píng)估，不夠全面。

實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)設(shè)計(jì)FIg 1

13個(gè)integrate tasks 通過(guò)是否做HVG/scaling 四種方式進(jìn)行預(yù)處理，得到預(yù)處理后的結(jié)果，之后用16種integate 方法對(duì)預(yù)處理的結(jié)果進(jìn)行integate分析，不同工具可能會(huì)得到3種結(jié)果（Graph，embedding， corrected features）。對(duì)得到的結(jié)果從1，batch removal ； 2， biological variance conservation； 3，scalability 4，usability 方面評(píng)估integrate的表現(xiàn)

實(shí)驗(yàn)流程拆分思維導(dǎo)圖

樣本：

tasks table

結(jié)果：

human immune cell task

這個(gè)task 來(lái)自5篇文獻(xiàn)，包括人的pbmc和bone marrow 所以作者認(rèn)為這里有10個(gè)batch。綜合評(píng)分Scanorama (embedding), FastMNN (embedding), scANVI and Harmony 此task中表現(xiàn)最好。

鑒于不同方法得到的結(jié)果表現(xiàn)形式不同，將不同工具得到的結(jié)果分開(kāi)評(píng)估，例如SAUCIE 可以得到graph和embedding的結(jié)果，就作為SAUCIE-gragh 和SAUCIE-embedding 分開(kāi)計(jì)算score

Fig2a

Scanorama 因?yàn)楹芎玫膇ntegrate了Villani (Smart-seq2)和10X的batch而獲得較高評(píng)分

scANVI 沒(méi)有很好的integrate villani batch，并且Erythrocytes 呈現(xiàn)出明顯的oetjen batch的偏向性

scANVI 和FastMNN, 都在CD14+?monocytes群中表現(xiàn)出10x的batch

Harmony的isolated label F1 bio-conservation score最低

fig2b-c

overall score： $S_{{\mathrm{overall}},i} = 0.6 \times S_{{\mathrm{bio}},i} + 0.4 \times S_{{\mathrm{batch}},i}.$

具體的計(jì)算大家可以去看方法，太復(fù)雜啦。

scRNA（5） + simulation tasks（2）

對(duì)5個(gè)scRNA和2個(gè)模擬task測(cè)試匯總顯示不同工具對(duì)batch removal 和biological variance conservation的權(quán)衡

最佳工具

simpler tasks：?Seurat v3 ；Harmony

complex real data：Scanorama；scVI?

all tasks： scGen ; scANVI

在preprocessing的選擇上

????????HVG selection 在大多數(shù)的task中有較高的batch removal 和bio- conversation score

? ? ? ? full gene set 在trajectory 和cell-cycle conservation中得分較高

? ? ? ? scaling 有較高的batch removal 得分和較低的bio conversation 得分

綜合比較

scANVI, Scanorama 和 scVI 在scRNA real data中表現(xiàn)最好。

總體來(lái)說(shuō)基于mutual nearest neighbors的方法去除batch的效果比較好，此外deep learning-based methods 結(jié)合細(xì)胞注釋，在去除強(qiáng)batch和保留生物學(xué)變化上效果好

Fig3

mouse brain scATAC-seq tasks

scATAC-seq features：peaks， windows， gene（gene activity）

基本上所有的方法在scATAC-seq中的表現(xiàn)都不如scRNA-seq，在scRNA中表現(xiàn)好的方法在Gene activity的評(píng)分中相對(duì)也比較高。

Liger 和harmony 大力度去除batch effect （而不是bio-conversation），在scATAC的integrate中表現(xiàn)更好。

fig4b-c

scalability和usability

scalability 主要是對(duì)task運(yùn)行過(guò)程中的cpu time和peak memory 進(jìn)行比較，具體結(jié)果圖在Extended Data fig. 7-8

作者通過(guò)下圖的10項(xiàng)標(biāo)準(zhǔn)對(duì)工具的實(shí)用性進(jìn)行評(píng)估，Harmony, Seurat v3 和 BBKNN 對(duì)初學(xué)者友好，相反， DESC, scANVI 和 trVAE上手比較困難

Extended Data Fig.9

Guide

Fig5a

本文使用的其他生信工具:

Splatter package：生成stimulated data

Scanpy：preprocessing

scikit-learn27?(v.0.22.1)： NMI；ARI

anndata2ri：converted between R and Python data formats

隨便聊聊

本文的各種打分方法實(shí)在讓人眼花撩亂，希望后面有時(shí)間能好好看明白。

文章最后的結(jié)論基本上還是針對(duì)不同的數(shù)據(jù)特征用不同的方法，或許沒(méi)有工具可以識(shí)別數(shù)據(jù)特征然后自動(dòng)匹配方法嗎？加上現(xiàn)在多組學(xué)技術(shù)的興起，不知道不同組學(xué)之間的integrate機(jī)制又是怎樣的。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【文獻(xiàn)分享】Benchmarking atlas-level data integration in single-cell genomics

【文獻(xiàn)分享】Benchmarking atlas-level data integration in single-cell genomics

文章用到的代碼/流程

文章亮點(diǎn)：

背景

實(shí)驗(yàn)設(shè)計(jì)

樣本：

結(jié)果：

human immune cell task

scRNA（5） + simulation tasks（2）

mouse brain scATAC-seq tasks

scalability和usability

Guide

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【文獻(xiàn)分享】Benchmarking atlas-level data integration in single-cell genomics

文章用到的代碼/流程

文章亮點(diǎn)：

背景

實(shí)驗(yàn)設(shè)計(jì)

樣本：

結(jié)果：

human immune cell task

scRNA（5） + simulation tasks（2）

mouse brain scATAC-seq tasks

scalability和usability

Guide

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av