TCGA數(shù)據(jù)分析(4)

TCGA數(shù)據(jù)分析 (1) : 如何從TCGA下載數(shù)據(jù)
TCGA數(shù)據(jù)分析 (2):如何從TCGA檢索數(shù)據(jù)
TCGA數(shù)據(jù)分析 (3):RNA-seq表達數(shù)據(jù)預(yù)處理

這次講解如何從metadata.json中獲得分組信息,如果你有perl語言基礎(chǔ),可以直接參考這篇教程中的腳本信息TCGA中metadata.json中注釋信息的提取。這里我們以R語言為例講解對metadata注釋信息的提取過程。

#加載metada文件
x = fromJSON(file = 'metadata.cart.2019-09-20.json')
#變量初始化
n = ncol(x_reduce)
id = rep(0, n)
sample_id = rep(0, n)
#根據(jù)metadata的結(jié)構(gòu),提取注釋信息
for (i in 1:n) {
  id[i] = x[[i]]$submitter_id
  sample_id[i] = x[[i]]$associated_entities[[1]]$entity_submitter_id
 }
#一共包含兩類信息:
#id與表達數(shù)據(jù)中的文件ID對應(yīng),sample_id包含分組信息
sample_matrix = data.frame(id = id, sample_id = sample_id)
#提取相應(yīng)的字符串,構(gòu)建樣本信息表
sample_info = data.frame(id = substr(id, 1, 9), sample_id = substr(sample_id, 1, 15))
sample_info = sample_info[order(sample_info$id),]
colnames(x_reduce) = sample_info$sample_id

就這么簡單完成了對metadata信息中注釋信息的提取??梢钥聪峦瓿珊蟮膕ample_info是個什么亞子的data.frame

head(sample_info)
           id       sample_id
370 0097539b- TCGA-BR-7707-01
18  01411772- TCGA-VQ-A8E2-01
26  01ed42c5- TCGA-HU-8249-01
112 01f7a9ce- TCGA-BR-8678-01
304 024d6c1e- TCGA-BR-8588-01
142 0280b3ee- TCGA-BR-6455-01

樣本的分組信息就在sample_id列,這里你需要了解一下TCGA樣本的命名規(guī)則:以第一行為例,TCGA就是項目名稱,BR是指組織來源,7707是參與者編號,01~ 09表示腫瘤組織,10~19則為非腫瘤組織或正常組織。所以我們只需要TCGA樣本編號中的14-15的編號就可以進行分組了。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容