IOBR:一個(gè)R包帶你走進(jìn)數(shù)據(jù)挖掘的殿堂

鑒于前一段時(shí)間有小伙伴私聊 Immugent 說生信寶庫是不是專門只寫單細(xì)胞相關(guān)的推文呀,其實(shí),這只是湊巧最近發(fā)的都是單細(xì)胞相關(guān)的。雖然近幾年產(chǎn)生了大量的單細(xì)胞數(shù)據(jù),但bulk數(shù)據(jù)是基礎(chǔ),是數(shù)據(jù)挖掘之源頭,當(dāng)然作為主打生信主題的公眾號(hào)生信寶庫肯定也會(huì)關(guān)注對(duì)bulk數(shù)據(jù)的挖掘。那么,本次推文Immugent就給大家介紹一個(gè)強(qiáng)大的分析Bulk數(shù)據(jù)的R包--IOBR。

隨著新一代測(cè)序技術(shù)的不斷推廣,每年都產(chǎn)生了大量各種組織和細(xì)胞的測(cè)序數(shù)據(jù)(注:本文在沒有特別說明情況下都是指bulk測(cè)序數(shù)據(jù)),這也催生了很多大型數(shù)據(jù)庫,如:GEO, ArryExpress, TCGA, ICGC,以及我國的NGDC數(shù)據(jù)庫。我們?cè)陂喿x最新發(fā)表的文章中也越來越普遍的見到,作者在進(jìn)行某一項(xiàng)研究中利用多項(xiàng)前人研究的數(shù)據(jù)對(duì)自己的結(jié)果進(jìn)行平行驗(yàn)證,因此數(shù)據(jù)挖掘逐漸變得不再是選用品而是必需品。

伴隨著數(shù)據(jù)增長就是生物信息學(xué)科的蓬勃發(fā)展,一個(gè)很普遍的現(xiàn)象就是R包的更新?lián)Q代以及推陳出新,就像5年前的R包多是功能單一,解決某一具體問題;而近兩年新推出的R包越來越多的整合了多項(xiàng)功能(或嵌入多種R包),做到一站式解決很多問題,如先前的 tidyverse, tinyarray 包和上周介紹的 irGSEA 包(單細(xì)胞基因集打分實(shí)操之irGSEA)。而小編今天介紹的這個(gè)IOBR 包功能十分強(qiáng)大,可謂包羅萬象,并且相應(yīng)的文章已經(jīng)發(fā)表在Frontiers in Immunology (IF: 7.56)上了,想看文章的小伙伴可通過文章最下方鏈接進(jìn)行檢索。

圖片

IOBR旨在完成一站式對(duì)腫瘤多組學(xué)數(shù)據(jù)的免疫學(xué)/生物學(xué)研究,揭示腫瘤微環(huán)境和臨床特征的關(guān)系??偟膩碚f,IOBR包可以概括出以下幾點(diǎn)優(yōu)勢(shì):

  1. 集成了8種已發(fā)表的用于定量腫瘤微環(huán)境(TME)的算法: CIBERSORT, TIMER, xCell, MCPcounter, ESITMATE, EPIC, IPS, quanTIseq;

  2. IOBR收集了255個(gè)已發(fā)表的特征基因集,涉及腫瘤微環(huán)境、腫瘤代謝、m6A、外泌體、微衛(wèi)星不穩(wěn)定和三級(jí)淋巴結(jié)構(gòu),所以你想要的在這都應(yīng)有盡有;

  3. 并且可以通過運(yùn)行函數(shù) signature_collection_citation 獲取源論文(暖心包),這樣極大的方便了使用者解讀和引用相關(guān)文獻(xiàn);

  4. 函數(shù) signature_collection 可以羅列出所有給定簽名的詳細(xì)基因symbol,這樣有利于篩選出重要的靶基因進(jìn)行后續(xù)研究和實(shí)驗(yàn)驗(yàn)證;

  5. 最后,IOBR可同時(shí)采用PCA、z-scoressGSEA三種計(jì)算方法對(duì)基因集打分。

并且,值得注意的是,IOBR收集并使用多種方法進(jìn)行變量轉(zhuǎn)換、可視化、批量生存分析、特征選擇和統(tǒng)計(jì)分析,并且支持批量分析和相應(yīng)結(jié)果的可視化,下面小編就逐步介紹一下IOBR強(qiáng)大的功能。

圖片

在沒有這個(gè)包之前我們要想做一個(gè)癌型的數(shù)據(jù)挖掘,起碼得具備兩個(gè)條件:一個(gè)是清洗好的RNAseq數(shù)據(jù),另一個(gè)是特征基因集。而且在不同數(shù)據(jù)集進(jìn)行互相驗(yàn)證時(shí)還需要對(duì)多套數(shù)據(jù)進(jìn)行統(tǒng)一的數(shù)據(jù)轉(zhuǎn)化,如都轉(zhuǎn)化為TPM,就很繁瑣。IOBR包就簡化了這些步驟,只需給定它癌型,如轉(zhuǎn)化成TPM只需要一個(gè)count2tpm函數(shù)即可實(shí)現(xiàn),而且對(duì)TCGA和GEO數(shù)據(jù)都是可以無障礙銜接的;此外,這個(gè)包已經(jīng)整理好了各種探索腫瘤微環(huán)境經(jīng)典文獻(xiàn)中使用或產(chǎn)生的數(shù)據(jù)集,只需要給定具體要研究的功能集即可,也可通過signature_collection函數(shù)進(jìn)行挑選。

這個(gè)包還可以同時(shí)對(duì)各種分析結(jié)果進(jìn)行可視化,不僅形式多樣(如上圖),而且添加了各種統(tǒng)計(jì)學(xué)檢驗(yàn),就連配色也高端大氣,真乃數(shù)據(jù)挖掘之必備良包。

既然這個(gè)R包發(fā)在了免疫學(xué)領(lǐng)域的雜志上,那它分析腫瘤免疫微環(huán)境的能力肯定是很強(qiáng)大的。同時(shí)對(duì)bulk數(shù)據(jù)而言,近幾年研究的最多最熱門的一個(gè)方向的就是通過反卷積 的方式對(duì)其進(jìn)行相對(duì)細(xì)胞定量,如我們熟知的CIBERSORT算法就是屬于這類。當(dāng)然目前基于這個(gè)思路的算法已經(jīng)被開發(fā)出很多種,下表列出了最常用的8種算法,當(dāng)然這些都被內(nèi)置在 IOBR包中,可以隨意調(diào)用。

method license citation
CIBERSORT free for non-commerical use only Newman, A. M., Liu, C. L., Green, M. R., Gentles, A. J., Feng, W., Xu, Y., … Alizadeh, A. A. (2015). Robust enumeration of cell subsets from tissue expression profiles. Nature Methods, 12(5), 453–457. https://doi.org/10.1038/nmeth.3337
ESTIMATE free (GPL2.0) Vegesna R, Kim H, Torres-Garcia W, …, Verhaak R. (2013). Inferring tumour purity and stromal and immune cell admixture from expression data. Nature Communications 4, 2612. http://doi.org/10.1038/ncomms3612
quanTIseq free (BSD) Finotello, F., Mayer, C., Plattner, C., Laschober, G., Rieder, D., Hackl, H., …, Sopper, S. (2019). Molecular and pharmacological modulators of the tumor immune contexture revealed by deconvolution of RNA-seq data. Genome medicine, 11(1), 34. https://doi.org/10.1186/s13073-019-0638-6
TIMER free (GPL 2.0) Li, B., Severson, E., Pignon, J.-C., Zhao, H., Li, T., Novak, J., … Liu, X. S. (2016). Comprehensive analyses of tumor immunity: implications for cancer immunotherapy. Genome Biology, 17(1), 174. https://doi.org/10.1186/s13059-016-1028-7
IPS free (BSD) P. Charoentong et al., Pan-cancer Immunogenomic Analyses Reveal Genotype-Immunophenotype Relationships and Predictors of Response to Checkpoint Blockade. Cell Reports 18, 248-262 (2017). https://doi.org/10.1016/j.celrep.2016.12.019
MCPCounter free (GPL 3.0) Becht, E., Giraldo, N. A., Lacroix, L., Buttard, B., Elarouci, N., Petitprez, F., … de Reyniès, A. (2016). Estimating the population abundance of tissue-infiltrating immune and stromal cell populations using gene expression. Genome Biology, 17(1), 218. https://doi.org/10.1186/s13059-016-1070-5
xCell free (GPL 3.0) Aran, D., Hu, Z., & Butte, A. J. (2017). xCell: digitally portraying the tissue cellular heterogeneity landscape. Genome Biology, 18(1), 220. https://doi.org/10.1186/s13059-017-1349-1
EPIC free for non-commercial use only (Academic License) Racle, J., de Jonge, K., Baumgaertner, P., Speiser, D. E., & Gfeller, D. (2017). Simultaneous enumeration of cancer and immune cell types from bulk tumor gene expression data. ELife, 6, e26476. https://doi.org/10.7554/eLife.26476

通過以上算法對(duì)bulk數(shù)據(jù)進(jìn)行定量后,我們可以得到一個(gè)相對(duì)的細(xì)胞含量,雖然不是很準(zhǔn)確,但是仍然能給我們提供一些思路。IOBR包也可以對(duì)定量結(jié)果進(jìn)行可視化,如下圖所示:

圖片

這里值得一提的是,作為反卷積算法的龍頭老大,CIBERSORT的團(tuán)隊(duì)已經(jīng)開發(fā)出了一個(gè)新版本--CIBERSORTx ,其可以將單細(xì)胞和bulk數(shù)據(jù)進(jìn)行相互轉(zhuǎn)化,感興趣的小伙伴可以通過這個(gè)鏈接進(jìn)行直達(dá)CIBERSORTx 。

腫瘤細(xì)胞之所以不同于正常細(xì)胞的根本原因是一些關(guān)鍵基因的突變,如控制死亡的基因突變賦予腫瘤不死/快速增殖的特征;控制細(xì)胞遷移/黏附的基因突變賦予腫瘤轉(zhuǎn)移的能力;控制細(xì)胞代謝的基因突變賦予腫瘤制造有利于自身生存的環(huán)境等等。而這些腫瘤的特征都或多或少的體現(xiàn)在腫瘤微環(huán)境的變化上,因此在上述得到各種細(xì)胞的相對(duì)含量之上和具體基因進(jìn)行關(guān)聯(lián)分析可以進(jìn)一步揭示腫瘤發(fā)生發(fā)展的內(nèi)在機(jī)制。IOBR提供了基于全局對(duì)基因突變情況進(jìn)行研究的功能,還可以同上述獲得的免疫細(xì)胞相對(duì)含量結(jié)果進(jìn)行聯(lián)合分析。

圖片

在得到以上分析結(jié)果后,為了更好的對(duì)研究的表型進(jìn)行解讀,我們往往還需要和臨床指征進(jìn)行關(guān)聯(lián)才能賦予研究實(shí)際意義,如和腫瘤患者的年齡,性別等基本信息或者腫瘤分級(jí),轉(zhuǎn)移與否等聯(lián)合分析。因此,IOBR還提供了將分析結(jié)果和臨床信息進(jìn)行關(guān)聯(lián)的常用模型,如 lasso 模型和 ridge 模型(嶺回歸),在實(shí)際應(yīng)用中,我們可以根據(jù)不同的臨床指標(biāo)選擇合適的模型,還可以進(jìn)行不同數(shù)據(jù)集之間的相互驗(yàn)證。

圖片

好啦,本次推文寫到這就結(jié)束啦,后續(xù)小編會(huì)用示例數(shù)據(jù)進(jìn)行演示如果使用IOBR包進(jìn)行數(shù)據(jù)挖掘,敬請(qǐng)期待!

[參考文獻(xiàn)]

Zeng D, Ye Z, Shen R, Yu G, Wu J, Xiong Y, Zhou R, Qiu W, Huang N, Sun L, Li X, Bin J, Liao Y, Shi M, Liao W. IOBR: Multi-Omics Immuno-Oncology Biological Research to Decode Tumor Microenvironment and Signatures. Front Immunol. 2021 Jul 2;12:687975. doi: 10.3389/fimmu.2021.687975.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容