TCGA數(shù)據(jù)分析 (1) : 如何從TCGA下載數(shù)據(jù)
TCGA數(shù)據(jù)分析 (2):如何從TCGA檢索數(shù)據(jù)
TCGA數(shù)據(jù)分析 (3):RNA-seq表達數(shù)據(jù)預(yù)處理
這次講解如何從metadata.json中獲得分組信息,如果你有perl語言基礎(chǔ),可以直接參考這篇教程中的腳本信息TCGA中metadata.json中注釋信息的提取。這里我們以R語言為例講解對metadata注釋信息的提取過程。
#加載metada文件
x = fromJSON(file = 'metadata.cart.2019-09-20.json')
#變量初始化
n = ncol(x_reduce)
id = rep(0, n)
sample_id = rep(0, n)
#根據(jù)metadata的結(jié)構(gòu),提取注釋信息
for (i in 1:n) {
id[i] = x[[i]]$submitter_id
sample_id[i] = x[[i]]$associated_entities[[1]]$entity_submitter_id
}
#一共包含兩類信息:
#id與表達數(shù)據(jù)中的文件ID對應(yīng),sample_id包含分組信息
sample_matrix = data.frame(id = id, sample_id = sample_id)
#提取相應(yīng)的字符串,構(gòu)建樣本信息表
sample_info = data.frame(id = substr(id, 1, 9), sample_id = substr(sample_id, 1, 15))
sample_info = sample_info[order(sample_info$id),]
colnames(x_reduce) = sample_info$sample_id
就這么簡單完成了對metadata信息中注釋信息的提取??梢钥聪峦瓿珊蟮膕ample_info是個什么亞子的data.frame
head(sample_info)
id sample_id
370 0097539b- TCGA-BR-7707-01
18 01411772- TCGA-VQ-A8E2-01
26 01ed42c5- TCGA-HU-8249-01
112 01f7a9ce- TCGA-BR-8678-01
304 024d6c1e- TCGA-BR-8588-01
142 0280b3ee- TCGA-BR-6455-01
樣本的分組信息就在sample_id列,這里你需要了解一下TCGA樣本的命名規(guī)則:以第一行為例,TCGA就是項目名稱,BR是指組織來源,7707是參與者編號,01~ 09表示腫瘤組織,10~19則為非腫瘤組織或正常組織。所以我們只需要TCGA樣本編號中的14-15的編號就可以進行分組了。