對于研究cancer相關(guān)的小伙伴們,相信你們在看文獻(xiàn)的過程中,經(jīng)??梢钥吹接行┳髡呃肨CGA數(shù)據(jù)庫里的數(shù)據(jù)進(jìn)行分析、整合,得到很多有意思的思路。那么TCGA數(shù)據(jù)庫是個啥?里面有寫什么東西?我也很好奇,所以決定來學(xué)習(xí)一下這個數(shù)據(jù)庫的相關(guān)知識和使用。
這里有幾篇參考文章:
1.TCGA數(shù)據(jù)庫簡介--生信修煉手冊
2.醫(yī)學(xué)生信(一) TCGA和GEO介紹
3.TCGA數(shù)據(jù)庫-腫瘤基因組圖譜
Q1:TCGA數(shù)據(jù)庫是什么?
TCGA: The Cancer Genome Atlas Program。 翻譯過來的意思是:癌癥基因組圖譜計劃。顧名思義,這個數(shù)據(jù)庫是收錄癌癥患者相關(guān)信息的。目前收錄了來自20000個病人,33個癌癥的數(shù)據(jù)。
官方網(wǎng)站:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga
打開長這樣:

Q2:TCGA數(shù)據(jù)庫里都儲存了什么信息?
1、臨床樣本信息:Biospecimen、Clinical
2、測序數(shù)據(jù):RNA sequencing, MicroRNA sequencing, DNA sequencing,SNP-based platforms,Array-based DNA methylation sequencing,Reverse-phase array(RPPA)。可以說包括了基因組,轉(zhuǎn)錄組,表觀遺傳,蛋白組等各個組學(xué)數(shù)據(jù)。
NOTE: 這里面不是所有的信息都可以下載的,有些你可以下載到,有些卻不能。測序數(shù)據(jù)共分為四層:level1、level2、level3、level4,其中,level3、level4的數(shù)據(jù)一般都開放下載的,level1是最原始的數(shù)據(jù),level2是做了進(jìn)一步的處理的,這些數(shù)據(jù)一般是不開放的,需要申請才能下載。
Q3:這個網(wǎng)站收集的數(shù)據(jù)那么多,我怎么知道應(yīng)該去哪兒找到我想要的數(shù)據(jù)?
上面簡單的說了一下這個數(shù)據(jù)庫里有什么,那么這些數(shù)據(jù)應(yīng)該在哪里下載?上面的官方網(wǎng)站向下拉,你會看到這些:

點(diǎn)擊"Access TCGA Data"這一塊,然后會轉(zhuǎn)到下面這個頁面:

那么我們需要的數(shù)據(jù)都在哪里呢?
根據(jù)網(wǎng)上的教程:使用GDC在線查看TCGA數(shù)據(jù), 這個數(shù)據(jù)庫為了方便管理大量的數(shù)據(jù),建立了一個統(tǒng)一的數(shù)據(jù)模型,如下所示:

最高層級為program,對應(yīng)不同的數(shù)據(jù)來源,如TCGA, TARGET等;第二層為project, 代表一系列患者對應(yīng)的;第三層為case,代表的是同一個患者的所有相關(guān)數(shù)據(jù),包括SNV, CNV,基因表達(dá)譜等多種數(shù)據(jù),需要注意的是case和sample是一對多的關(guān)系,一個患者可以取多份樣本;最后一層是每個case相關(guān)的數(shù)據(jù),即Files, 數(shù)據(jù)類型是多種多樣的,包括序列,基因表達(dá)譜,SNV, CNV, 甲基化,臨床信息等多種數(shù)據(jù)。
那么根據(jù)教程里的,下面就來探索一下這個網(wǎng)站。首先試著點(diǎn)擊上面打開的網(wǎng)頁里綠色方塊的"Projects":

可以看到左邊有一欄可以供你選擇,那么按照課程說的,最高級是Program,這里可以看到有TCGA、TARGET、GENIE等等數(shù)據(jù)庫來源可以選擇。那么接下來就是projects了(Primary Site),你可以選擇疾病類型,比如腎、腸、乳腺之類的。比如這里,我在projects里輸入的是head and neck,然后program我選擇的是TCGA數(shù)據(jù)庫,那么根據(jù)我的過濾條件,得到這樣的結(jié)果:

然后點(diǎn)擊TCGA-HNSC,就可以看到summary信息:

再往下拉,你會看到對應(yīng)每一種的primary site有多少例case:

Q4:大概知道了我想要的數(shù)據(jù)在哪里了,那么如何下載?
還是根據(jù)課程里的走,你可以從以下3個方面來查看和篩選數(shù)據(jù):
(1)Cases
(2)Genes
(3)Mutations
這里以case為例。剛才我找到了13個primary site的case,比如說我只想要第一種:base of tongue的case數(shù)據(jù)。那么點(diǎn)擊"24",會彈出下面的頁面:

點(diǎn)擊第一個case:TCGA-CV-7406:

那么在這個頁面,你可以看到一些測序的信息,在Experimental strategy一欄里。比如我對RNA-seq的信息感興趣,可以點(diǎn)開看一下:

這里你就可以看出來,有些文件是open的,你可以下載,而有些則是controlled的,是沒法下載的,需要申請。那么仔細(xì)一看這些可以下載的數(shù)據(jù),有的是htseq.count,有的是FPKM,還有的是FPKM-UQ,這些都代表什么意思呢?
教程里(醫(yī)學(xué)生信(一) TCGA和GEO介紹)告訴我們了,根據(jù)這張圖,你就大概知道這些可以下載的數(shù)據(jù)都經(jīng)過哪些處理了:

那么知道了自己想下載的數(shù)據(jù)在哪里,你只需要點(diǎn)擊你選擇的那一行的購物車的圖標(biāo),就可以下載啦。這是對于少量數(shù)據(jù)下載的方式,如果你需要下載特別多的數(shù)據(jù),有另外的方法可以進(jìn)行。