muon來(lái)分析cite-seq數(shù)據(jù)

卡卡最近接觸到了cite-seq數(shù)據(jù),需要對(duì)cite-seq的數(shù)據(jù)分析流程進(jìn)行搭建,因此調(diào)研了相關(guān)知識(shí)。

cite-seq

CITE-seq技術(shù)是2017年發(fā)表的一種技術(shù)[1],能夠同時(shí)測(cè)定數(shù)千個(gè)細(xì)胞的RNA轉(zhuǎn)錄本及蛋白標(biāo)記物。此技術(shù)出現(xiàn)時(shí)間較久,但是卻似乎沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)分析流程:

  • 不同的文章對(duì)于cite-seq產(chǎn)生的數(shù)據(jù)的分析都沒(méi)有統(tǒng)一標(biāo)準(zhǔn)
  • 查閱了大量的相關(guān)資料,最后選取muon (https://github.com/scverse/muon)軟件來(lái)進(jìn)行分析

為何選取muon流程分析cite-seq

  • 此軟件由python撰寫,python是生信工作中使用廣泛的語(yǔ)言,且能夠直接對(duì)接卡卡公司的數(shù)據(jù)庫(kù)
  • cite-seq技術(shù)的原始文章[1]使用了clr(centered log ratio)矯正方法對(duì)蛋白數(shù)據(jù)進(jìn)行normalize, muon也采用了此方法
  • weighted Nearest Neighbor Analysis[2]用于多組學(xué)數(shù)據(jù)分析的認(rèn)可度較高,muon采用了此方法
  • 多篇cite-seq文章分析流程不統(tǒng)一[3-5],但是統(tǒng)一的觀點(diǎn)是:組學(xué)分開分析,不如多組學(xué)聯(lián)合分析[2];而muon正是兩種組學(xué)聯(lián)合分析
  • scanpy開發(fā)團(tuán)隊(duì)開發(fā)的muon[6],且推薦使用此軟件[7-8],并不再維護(hù)之前的scanpy分析cite-seq的流程[9]
  • 此軟件能夠與scanpy兼容,且其mudata數(shù)據(jù)結(jié)構(gòu)與anndata類似,能夠同時(shí)存儲(chǔ)多維數(shù)據(jù),明顯優(yōu)于使用單獨(dú)anndata數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)多維信息

MUON分析環(huán)境構(gòu)建

通過(guò)conda來(lái)構(gòu)建,易于重現(xiàn)

  • 構(gòu)建步驟
conda create -n muon python=3.8
conda activate muon
conda install -c conda-forge anndata=0.7.8=py38h578d9bd_1
conda install -c conda-forge scanpy=1.8.2=pyhd8ed1ab_0
conda install -c conda-forge muon=0.1.2
conda install -c conda-forge leidenalg=0.9.1=py38h8dc9893_0

cite-seq流程與rna流程(seurat/scanpy)的差異

  • 蛋白數(shù)據(jù)normalize方法與RNA數(shù)據(jù)不同,為CLR方法
  • 降維聚類使用WNN信息,即同時(shí)利用多組學(xué)信息,結(jié)果更加優(yōu)于使用單組學(xué)進(jìn)行降維聚類

muon軟件的重點(diǎn)函數(shù)

  • pt.pp.clr(prot), 用于對(duì)蛋白數(shù)據(jù)進(jìn)行normalize
#Apply the centered log ratio (CLR) transformation to normalize counts in adata.X.
# normalize across cells for each feature
# x=[1,2,3,4]
return np.log1p(x / np.exp(np.log1p(x).sum() / len(x))) # in muon
return(log1p(x = x/(exp(x = sum(log1p(x = x[x > 0]), na.rm = TRUE)/length(x = x))))) # in seurat v4.0.5
  • mu.pp.neighbors+sc.tl.leiden和mu.tl.leiden的異同
    在查看muon的說(shuō)明文檔時(shí),卡卡對(duì)于mu.pp.neighbors+sc.tl.leiden和mu.tl.leiden的不同有所疑惑:
#mu.pp.neighbors + sc.tl.leiden
mu.pp.neighbors利用不同組學(xué)的neighborhood graph生成Multimodal nearest neighbor,并利用此進(jìn)行后續(xù)的leiden聚類及umap,這一步很耗內(nèi)存
mu.tl.leiden則是利用單組學(xué)分別的neighborhood graph進(jìn)行multiplex Leiden algorithm聚類[10]

因此mu.tl.leiden是聚類的時(shí)候?qū)煞N組學(xué)聯(lián)合起來(lái),而mu.pp.neighbors則是先將兩種組學(xué)聯(lián)合起來(lái),不僅可以用于聚類,也可以用于降維,雖然更耗內(nèi)存,但卡卡認(rèn)為更優(yōu)。

參考文獻(xiàn)

[1] Simultaneous epitope and transcriptome measurement in single cells
[2] Integrated analysis of multimodal single-cell data
[3] Single-cell transcriptomics and surface epitope detection in human brain epileptic lesions identifies pro-inflammatory signaling, 2022
[4] Physioxia induced Downregulation of Tet2 in Hematopoietic Stem Cells contributes to Enhanced Self-renewal, 2022
[5] Single-cell multiomic analysis identifies regulatory programs in mixed-phenotype acute leukemia, 2019
[6] MUON: multimodal omics analysis framework
[7] https://github.com/scverse/scanpy/pull/1117
[8] https://scanpy.readthedocs.io/en/stable/ecosystem.html
[9] https://scanpy-tutorials.readthedocs.io/en/latest/cite-seq/pbmc5k.html
[10] Community structure in time-dependent, multiscale, and multiplex networks. Science, 328(5980), 876–8

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容