1. 準(zhǔn)備工作:
- 登陸TCGA數(shù)據(jù)庫GDC界面:https://portal.gdc.cancer.gov/
TCGA GDC界面 -
首先確保Cart中沒有之前的文件記錄,如果有其他文件(即文件數(shù)不為0),清空Cart。
核對(duì)Cart已清空 -
如果Cart文件數(shù)不為0,則點(diǎn)擊進(jìn)入Cart界面進(jìn)行清空。
清空Cart
2. 選擇樣本類型及性質(zhì):
- 點(diǎn)擊Repository進(jìn)入數(shù)據(jù)倉庫,隨后點(diǎn)擊Cases樣本類型及性質(zhì)的選擇:
點(diǎn)擊Cases -
首先確定樣本部位,以前列腺癌樣本舉例:
選擇樣本部位 -
選擇樣本來源項(xiàng)目,如果只分析TCGA的樣本,則只選擇TCGA:
選擇項(xiàng)目來源 -
我們之前的一些選擇,會(huì)不斷縮小樣本范圍,所以我們發(fā)現(xiàn)Project選項(xiàng)下只有一個(gè)TCGA-PRAD,我們可不用點(diǎn)擊,不選擇表示該選項(xiàng)下的內(nèi)容都要。
Disease Type這里根據(jù)分析需要進(jìn)行選擇,這里我為了統(tǒng)一病理類型,進(jìn)行了選擇。
Gender無特殊需要可不進(jìn)行選擇。
Vital Status一般我們需要進(jìn)行生存分析的話,就選擇alive和dead的患者,not reported的患者表示生存資料不全,可以進(jìn)行剔除。
Age at Diagnosis以及Days to Death根據(jù)自己課題需要進(jìn)行設(shè)定,一般情況下默認(rèn)不設(shè)定篩選條件。
-
Race和Ethnicity一般情況下不設(shè)定篩選條件,并且這里的nor reported的樣本過于多,我們不進(jìn)行篩選了,以免丟失過多樣本數(shù)。
3. 選擇組學(xué)數(shù)據(jù)類型及格式:
- 點(diǎn)擊Files選擇數(shù)據(jù)類型及格式。
- Data Category這里用最常見的轉(zhuǎn)錄組數(shù)據(jù)舉例,選擇transcriptome profiling.
- Data Type選擇Gene Expression Quantification,代表蛋白編碼基因和長鏈非編碼基因的測(cè)序數(shù)據(jù)。miRNA基因的測(cè)序數(shù)據(jù)不包含在其中,需要選擇miRNA Expression Quantification而不是Gene Expression Quantification。
- Experimental Strategy只有一個(gè)選擇,默認(rèn)不選,Workflow Type根據(jù)自己需求,一般常用的是Counts數(shù)據(jù)或FPKM數(shù)據(jù)。
*一般選到這里就不再點(diǎn)擊其他篩選條件了,而且一般其他選項(xiàng)也只剩一個(gè)選項(xiàng)了。 -
Access表明數(shù)據(jù)權(quán)限,我們普通用戶只能使用open的數(shù)據(jù),如果出現(xiàn)了非開放的數(shù)據(jù),記得這里只點(diǎn)擊open。
選擇數(shù)據(jù)類型及格式
4. 下載選擇好的數(shù)據(jù):
-
將選擇好的數(shù)據(jù)加入購物車,隨后點(diǎn)擊Cart進(jìn)入購物車界面。
將選擇好的數(shù)據(jù)加入購物車 - 在Cart界面分別點(diǎn)擊Metadata(下載注釋文件)以及Download(下載數(shù)據(jù))。Download選項(xiàng)提供兩種數(shù)據(jù)下載途徑:Manifest表示下載Manifest文件后使用gdc-client軟件下載數(shù)據(jù)(gdc-client下載數(shù)據(jù)方法),這種方法適合下載大文件;Cart表示通過瀏覽器直接下載,該方法更方便,但是不適合下載很大的文件。
- 至此TCGA數(shù)據(jù)下載已完成。










