提取TCGA中mRNA或lncRNA表達矩陣

前面給大家講解過新版的TCGA數(shù)據(jù)庫中,RNAseq的表達矩陣中加入了一列g(shù)ene type。

?TCGA數(shù)據(jù)庫悄咪咪更新了—RNAseq沒有HTSeq-Counts了

我們在合并表達矩陣的時候,可以把這一列加入到矩陣里面

?合并新版TCGA表達矩陣R代碼叕更新了—RNA類型也給你提出來

?零代碼合并新版TCGA數(shù)據(jù)庫RNAseq表達譜數(shù)據(jù)

然后根據(jù)type這一列就可以來判斷對應(yīng)的基因是什么類型了,下圖列出了所有的RNA類型


如果想要mRNA的表達矩陣,就挑protein_coding對應(yīng)的行就可以了,同理如果對lncRNA感興趣,挑選lncRNA對應(yīng)的行就可以了。這個其實通過Excel的篩選功能就能夠?qū)崿F(xiàn)了。既然我們是用R代碼來合成得到的矩陣,那么就順手用R來挑選感興趣的表達矩陣。

#讀取完整的表達矩陣
RNAcounts=read.table(file="combined_RNAseq_counts.txt",header=T,sep="\t",check.names = F)

#挑選protein_coding,也就是mRNA
PCcounts=RNAcounts[RNAcounts$type=="protein_coding",]
dim(PCcounts)
#[1] 19944    46
#保存mRNA的表達矩陣
write.table(file="PCcounts.txt",PCcounts,quote=F,sep="\t")

#挑選lncRNA
LNCcounts=RNAcounts[RNAcounts$type=="lncRNA",]
dim(LNCcounts)
#[1] 16889    46
#保存lncRNA的表達矩陣
write.table(file="LNCcounts.txt",LNCcounts,quote=F,sep="\t")

對于其他的幾種表達矩陣的格式,TPM,F(xiàn)PKM, FPKM-UQ的處理方式是一樣的,這里就不在贅述了。

提取TCGA中mRNA或lncRNA表達矩陣

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容