ESTIMATE計算免疫基質得分以及腫瘤純度
1.概述
Estimate根據(jù)轉錄組數(shù)據(jù)來計算免疫基質得分,也可得到腫瘤樣本的腫瘤純度
其原理本質上是先收集好免疫基因集和基質基因集,通過ssGSEA來計算每個樣本各自基因集的得分
2.官網(wǎng)
3.代碼實現(xiàn)
安裝estiamte包(安裝不上可嘗試本地安裝)
rforge <- "http://r-forge.r-project.org"
install.packages("estimate", repos = rforge, dependencies = TRUE)
library(estimate)
準備數(shù)據(jù):表達譜數(shù)據(jù)要是txt格式的,csv會報錯,因為包內(nèi)函數(shù)默認使用read.table來讀取文件

data.png
個人拙見:以GSE116174數(shù)據(jù)為例,個人認為使用FPKM,TPM,count等類型數(shù)據(jù)差別不大,因為原理是用其表達值高低進行排序。但個人傾向用標化后數(shù)據(jù)進行處理
關于平臺選擇問題:官方提供三個選擇,分別是"affymetrix", "agilent", "illumina",但是看原始代碼可以發(fā)現(xiàn),三個選擇并不影響免疫、基質和總體得分,無論輸入哪個平臺,結果都是一致的。唯一不同的是在設置為"affymetrix"時候,會計算一個腫瘤純度,至于測序數(shù)據(jù)能不能用這個腫瘤純度,我也不敢確認,但是看到有些文獻是直接用的,效果還不錯,所以個人傾向不管什么數(shù)據(jù)都填"affymetrix"
library(estimate)
setwd("D:\\bioinformatics\\jupyter\\data")
##將準備好的表達譜保存為txt格式,這里是用ncbiid,如果是用genesymbol,改成id="GeneSymbol"即可
filterCommonGenes(input.f="GSE116174.txt", output.f="GSE116174.gct", id="EntrezID")
estimateScore(input.ds="GSE116174.gct", output.ds="GSE116174_estimate_score.gct", platform="affymetrix")
將結果保存為其他格式
estimate_score <- read.table("GSE116174_estimate_score.gct", skip = 2, header = TRUE)
##寫出csv
write.csv(estimate_score,"GSE116174_est.csv",row.names = FALSE)
結果展示:三個得分+一個腫瘤純度

data.png

data.png
終:寫這個單純記錄一下過程,避免后面自己忘記了