簡(jiǎn)介
????????在前一篇文章中,小編和大家分享了GEO數(shù)據(jù)的下載方法,作為GEO數(shù)據(jù)的姊妹篇,TCGA數(shù)據(jù)庫(kù)中的數(shù)據(jù)也是生信分析常用的數(shù)據(jù)之一。TCGA(The Cancer Genome Atlas )是由National Cancer Institute ( NCI, 美國(guó)國(guó)家癌癥研究所) 和? National Human Genome Research Institute (NHGRI, 國(guó)家人類(lèi)基因組研究所) 合作,在2006年建立的癌癥研究項(xiàng)目,旨在運(yùn)用高通量測(cè)序和生物信息學(xué)分析方法探究癌癥的遺傳基礎(chǔ),治病機(jī)理,提高了我們對(duì)癌癥診斷,治療和預(yù)防能力。TGCA數(shù)據(jù)庫(kù)詳細(xì)的記錄每個(gè)患者的臨床基本信息、外顯子測(cè)序、RNA-seq測(cè)序、甲基化等數(shù)據(jù),是癌癥生物信息研究的首選工具。最新版本(V23.0)TCGA包含39種癌癥和一萬(wàn)多個(gè)癌癥樣本,TCGA樣本數(shù)據(jù)可分為四級(jí)數(shù)據(jù),其中,level1、level2不對(duì)外開(kāi)放,僅對(duì)科研人員和研究所開(kāi)放,一般是在國(guó)外的PI需要經(jīng)過(guò)嚴(yán)格的申請(qǐng)才能獲得批準(zhǔn)下載;level3、level4一般可以公開(kāi)獲取,是生信小白訓(xùn)練學(xué)習(xí)生信技能、發(fā)表SCI的好助手。
? ? ? ? 雖然說(shuō) TCGA數(shù)據(jù)庫(kù)level3、level4可以免費(fèi)獲取,官方也提供了python編寫(xiě)的下載工具GDC API,R語(yǔ)言也提供了不少的R包(如:RTCGAToolbox、UCSCXenaTools),但是這些工具都是在命令行使用的,需要一定的編程能力,再加上TCGA數(shù)據(jù)庫(kù)遠(yuǎn)在國(guó)外,國(guó)內(nèi)也沒(méi)有鏡像站點(diǎn),下載速度也是很慢的。即使把數(shù)據(jù)下載下來(lái)時(shí),你看到的不是合并好的一個(gè)大文件,而是一個(gè)一個(gè)小文件,每個(gè)文件是一個(gè)樣本的數(shù)據(jù),你需要手動(dòng)將每個(gè)樣本的數(shù)據(jù)合并在一起。對(duì)于小白黨來(lái)說(shuō),樣本數(shù)目過(guò)大用Excel合并又耗費(fèi)時(shí)間,而且需要手動(dòng)添加樣本名稱(chēng),不僅速度慢,而且容易出錯(cuò)。
? ? ? ? ?針對(duì)?TCGA數(shù)據(jù)下載數(shù)據(jù)慢,數(shù)據(jù)處理難等問(wèn)題,我們公司研發(fā)了一個(gè)新的數(shù)據(jù)平臺(tái),從善的處理以上各種問(wèn)題。即使是不會(huì)編程的小白也可以通過(guò)使用我們的數(shù)據(jù)平臺(tái)為自身研究找尋合理的研究方向,甚至是發(fā)表一些小文章也將成為一種可能。我們通過(guò)研發(fā)的新的數(shù)據(jù)平臺(tái)將常用的公共數(shù)據(jù)庫(kù)全部同步到國(guó)內(nèi)服務(wù)器中,并且每天同步更新,同時(shí)按照常規(guī)發(fā)表SCI的習(xí)慣對(duì)所有數(shù)據(jù)進(jìn)行整合,編排,方便大家下載與使用。
使用方法
網(wǎng)址:http://sangerbox.com/TcgaDown,如下圖所示:

示例:以胰腺癌(PAAD)的RNA-seq數(shù)據(jù)為例——1.左邊選擇癌癥種類(lèi);2.選擇需要下載的數(shù)據(jù)類(lèi)型;3.點(diǎn)擊“下載到個(gè)人中心”按鈕,如下圖所示

轉(zhuǎn)到個(gè)人中心,進(jìn)入到下載目錄下,將文件按照從大到小的順序排序,當(dāng)Merge.txt和Merge.txt.bak大小一樣,說(shuō)明文件合并完成。
