腫瘤微環(huán)境,腫瘤中免疫細(xì)胞和基質(zhì)細(xì)胞的比例對預(yù)后有顯著影響,在腫瘤微環(huán)境中,免疫細(xì)胞和基質(zhì)細(xì)胞是兩種主要類型的非腫瘤組分,并且研究表明對于腫瘤的診斷和預(yù)后評估具有重要價值。基于ESTIMATE算法計算的免疫評分和基質(zhì)評分有助于腫瘤中免疫和基質(zhì)成分的定量。在該算法中,通過分析免疫和基質(zhì)細(xì)胞的特定基因表達(dá)特征來計算免疫和基質(zhì)評分,以預(yù)測非腫瘤細(xì)胞的浸潤。
ESTIMATE數(shù)據(jù)庫(https://bioinformatics.mdanderson.org/estimate/)提供TCGA中多種腫瘤的StromalScore,ImmuneScore和ESTIMATEScore。
1)StromalScore
基質(zhì)評分(記錄腫瘤組織中基質(zhì)的存在)
2)ImmuneScore
免疫評分(代表免疫細(xì)胞在腫瘤組織中的浸潤)
3)ESTIMATEScore
估計分?jǐn)?shù)(推斷出腫瘤的純度)
一、我們可以從TCGA下載到特定腫瘤樣本的生存時間,具體可以參考
?如何從TCGA數(shù)據(jù)庫下載RNAseq數(shù)據(jù)以及臨床信息(一)
二、我們可以從ESTIMATE數(shù)據(jù)庫下載特定腫瘤的StromalScore,ImmuneScore和ESTIMATEScore。
接下來我們來合并這兩部分的信息,其實思路還是很簡單的。我們可以通過樣本ID號來合并。生存時間的數(shù)據(jù)如下

StromalScore,ImmuneScore和ESTIMATEScore文件如下

你會發(fā)現(xiàn)ESTIMATEScore文件中樣本的ID號比較長,而生存時間文件中樣本ID比較短,只有12位。但是如果你仔細(xì)觀察你會發(fā)現(xiàn),他們的前12位是可以對上的。那么我們就提取ESTIMATEScore文件中樣本的前12位,然后跟生存時間里面的樣本ID做比較,找到一樣的ID就把免疫分值和生存時間合并起來。
下面來看看代碼
#讀入免疫分值文件
score=read.table("scores.txt",header=T,sep="\t")
#提取樣本ID的前12位最為新的樣本ID
id=substr(score$ID,1,12)
#將新ID號作為行名
rownames(score)=id
#讀入生存時間文件
os=read.table("Overall_Survival_month.txt",header=T,sep="\t")
#將樣本ID號作為行名
rownames(os)=os$Patient.ID
#刪掉生存狀態(tài)中:及后面的內(nèi)容
#eg. 1:DECEASED 處理之后變成1
os$OS_STATUS=gsub(":.*$","",os$OS_STATUS)
#刪掉包含NA的行
os=na.omit(os)
#取兩個文件中樣本的交集
comm_sample=intersect(id,rownames(os))
#合并兩個文件中的信息
data=cbind(score[comm_sample,-1],os[comm_sample,c("OS_STATUS","OS_MONTHS")])
#寫出結(jié)果到score_with_OS.txt
write.table(file="score_with_OS.txt",data,quote=F,sep="\t")