1. 什么是TCGA?TCGA中有哪些數(shù)據(jù)?
TCGA的全稱是The Cancer Genome Atlas, 這個(gè)項(xiàng)目始于2005年,它旨在使用基因測(cè)序和生物信息學(xué)編目與癌癥有關(guān)的基因突變。TCGA通過利用高通量基因組分析技術(shù),來幫助我們更好地理解癌癥的遺傳學(xué)基礎(chǔ),從而提升我們對(duì)于癌癥的診斷能力和對(duì)癌癥的治療、預(yù)防。
TCGA受美國癌癥研究所(National Cancer Institute)下的癌癥基因組中心和美國人類基因組研究所監(jiān)管。
TCGA包括主要進(jìn)行測(cè)序的基因組表征中心(genome characterization centers, GCCs)和負(fù)責(zé)測(cè)序數(shù)據(jù)分析的基因組數(shù)據(jù)分析中心(genome data analysis centers, GDACs),到目前為止TCGA共有39種癌癥的相關(guān)測(cè)序數(shù)據(jù),涉及29種癌癥器官,1萬多個(gè)腫瘤樣本,27萬多份文件。
2. 那么可以從TCGA中下載到哪些類型的數(shù)據(jù)呢?
TCGA的數(shù)據(jù)類型主要有以下幾種:
(1) Clinical: 包括病人的一般情況、診治情況、TNM分期、腫瘤病理、生存情況等。
(2) mRNA表達(dá)數(shù)據(jù): 通過mRNA芯片或者RNAseq測(cè)得的mRNA表達(dá)量
(3)microRNA: microRNA芯片或者microRNA-Seq測(cè)得的microRNA表達(dá)量
(4) Copy number variation: SNP芯片得到的腫瘤組織比對(duì)正常組織的染色體上各片段的比值
(5) Mutation: 腫瘤組織測(cè)序結(jié)果相對(duì)參考基因組的核苷酸突變,包括插入和缺失等變化
(6) Protein: 蛋白芯片測(cè)序得到的約200種常見癌癥相關(guān)蛋白的表達(dá)量
(7) Mythelation: 甲基化芯片測(cè)得的DNA甲基化數(shù)據(jù),主要為27和450兩種芯片的數(shù)據(jù)
其中mRNA-Seq,miRNA-Seq以及Methylation Array被廣泛使用。
3.mRNA-Seq數(shù)據(jù)分為3種:
HTSeq-Counts;HTSeq-FPKM;HTSeq-FPKM-UQ。
前兩個(gè)比較好理解,第三個(gè)跟第二個(gè)的區(qū)別在于不同的標(biāo)準(zhǔn)化方法,公式可參考https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/
4.TCGA數(shù)據(jù)等級(jí):
level1:原始數(shù)據(jù)
level2:處理過的數(shù)據(jù)
level3:經(jīng)過分割、解釋的數(shù)據(jù)
level4:感興趣的區(qū)域或概要
總而言之,前面2個(gè)層級(jí)的數(shù)據(jù)一般是拿不到的,需要權(quán)限,一般也只有國外的PI才能申請(qǐng)到(聽說的),我們一般拿到的open數(shù)據(jù)就屬于那種已經(jīng)標(biāo)準(zhǔn)化后的數(shù)據(jù)。
5.TCGA樣本分類:
除了要知道數(shù)據(jù)等級(jí)外,我們還需要了解TCGA的樣本分類,比如哪個(gè)是正常樣本,哪個(gè)是腫瘤樣本
一般我們可以看到樣品名稱如:TCGA-19-2619-10A,我們需要關(guān)注的是最后一位10A,一般來說01代表癌癥樣本,11代表癌旁樣本。其實(shí)從01-09是tumor,癌癥樣本;10-29是normal,癌旁樣本。只是其中分的比較細(xì)。具體可參考官網(wǎng)