前面給大家講解過新版的TCGA數(shù)據(jù)庫中,RNAseq的表達矩陣中加入了一列g(shù)ene type。
?TCGA數(shù)據(jù)庫悄咪咪更新了—RNAseq沒有HTSeq-Counts了

我們在合并表達矩陣的時候,可以把這一列加入到矩陣里面
?合并新版TCGA表達矩陣R代碼叕更新了—RNA類型也給你提出來
?零代碼合并新版TCGA數(shù)據(jù)庫RNAseq表達譜數(shù)據(jù)

然后根據(jù)type這一列就可以來判斷對應(yīng)的基因是什么類型了,下圖列出了所有的RNA類型

如果想要mRNA的表達矩陣,就挑protein_coding對應(yīng)的行就可以了,同理如果對lncRNA感興趣,挑選lncRNA對應(yīng)的行就可以了。這個其實通過Excel的篩選功能就能夠?qū)崿F(xiàn)了。既然我們是用R代碼來合成得到的矩陣,那么就順手用R來挑選感興趣的表達矩陣。
#讀取完整的表達矩陣
RNAcounts=read.table(file="combined_RNAseq_counts.txt",header=T,sep="\t",check.names = F)
#挑選protein_coding,也就是mRNA
PCcounts=RNAcounts[RNAcounts$type=="protein_coding",]
dim(PCcounts)
#[1] 19944 46
#保存mRNA的表達矩陣
write.table(file="PCcounts.txt",PCcounts,quote=F,sep="\t")
#挑選lncRNA
LNCcounts=RNAcounts[RNAcounts$type=="lncRNA",]
dim(LNCcounts)
#[1] 16889 46
#保存lncRNA的表達矩陣
write.table(file="LNCcounts.txt",LNCcounts,quote=F,sep="\t")
對于其他的幾種表達矩陣的格式,TPM,F(xiàn)PKM, FPKM-UQ的處理方式是一樣的,這里就不在贅述了。