前序
還有1個(gè)多月就要畢業(yè)了,而在此之前需要順利完成自己的畢設(shè),因?yàn)閷?duì)純生物方向一點(diǎn)也不感興趣,所以課題方向選的是生信—TCGA數(shù)據(jù)的利用,雖說(shuō)本科專業(yè)與生物相關(guān),但在整個(gè)大學(xué)期間基本就是在不掛科的情況下盡可能地與生物對(duì)著干,所以大學(xué)四年過后么,就有一種雖學(xué)生物、但毫不懂生物的狀態(tài)。為了能夠順利拿到畢業(yè)證,經(jīng)過這段時(shí)間的“刻苦鉆研”也算是多少對(duì)于這方面有點(diǎn)了解,因此特地寫個(gè)系列來(lái)鞏固一下這方面知識(shí)的掌握。
對(duì)于數(shù)據(jù)的利用的第一步就是獲取數(shù)據(jù),對(duì)于數(shù)據(jù)的下載與利用,在這里我下載TCGA數(shù)據(jù)的主要方法就是通過官網(wǎng)的下載工具gdc-client進(jìn)行下載的;
數(shù)據(jù)獲取到本地
1,打開在搜索欄中搜索“TCGA”,然后找到官方網(wǎng)站點(diǎn)進(jìn)去,TCGA官網(wǎng)如下圖所示:

頁(yè)面下滑找到進(jìn)入數(shù)據(jù)庫(kù)入口:Access TCGA Data,點(diǎn)進(jìn)去:

2,點(diǎn)擊上面的「Repository」(倉(cāng)庫(kù)),接下來(lái)就是根據(jù)自己的需要在頁(yè)面的左側(cè)的「Files」和「Cases」進(jìn)行數(shù)據(jù)篩選;

下面我列了兩張圖,一張是TCGA數(shù)據(jù)庫(kù)中的數(shù)據(jù)類型列表,一張是關(guān)于TCGA癌癥簡(jiǎn)稱、英文名字及中文名字:


3,數(shù)據(jù)篩選完之后網(wǎng)頁(yè)的右邊會(huì)有‘購(gòu)物車’(cart)的圖案,根據(jù)自己需要,將需要的文件加入到cart中,添加方式有兩種選擇:
第一種是:「Add all files to the Cart」(將文件全部加入);
第二種是:自己想要添加哪個(gè)圖案,點(diǎn)擊左邊的“購(gòu)物車”圖案即可;
4,文件選擇完之后,點(diǎn)擊頁(yè)面右上角處的Cart:


5,接下來(lái)就是進(jìn)行數(shù)據(jù)下載,因?yàn)槲沂鞘褂霉倬W(wǎng)的工具進(jìn)行下載的所以需要下載兩個(gè)文件:
一個(gè)是「Manifest」(一個(gè)txt文本,是數(shù)據(jù)下載入口,并不是數(shù)據(jù)本身);
一個(gè)是左邊的「Metadata」(這個(gè)下載之后是個(gè)json文件,是為了之后進(jìn)行數(shù)據(jù)清洗作準(zhǔn)備的);
當(dāng)然也可以直接從網(wǎng)站上直接下載數(shù)據(jù),但這種方式的弊端就是不穩(wěn)定,數(shù)據(jù)中斷時(shí)無(wú)法續(xù)傳;

把文件下載到本地后,是這個(gè)樣子:

6,接下在需要下載官方下載工具「gdc-client」:鏈接地址:gdc-client下載工具,根據(jù)自己系統(tǒng)進(jìn)行下載即可,工具下載完之后不需要安裝就可以直接使用,但是下載數(shù)據(jù)是在命令行中進(jìn)行的,為了方便需要把安裝工具配置到系統(tǒng)中的「環(huán)境變量」
下載工具的「環(huán)境變量」配置
第一步,找到工具所在的安裝目錄,復(fù)制安裝地址:

第二步,打開電腦的控制面板,我的是win10,直接快捷鍵:win +R 打開運(yùn)行框,輸入control即可;然后點(diǎn)擊面板右上角的「大圖標(biāo)」,找到「系統(tǒng)」

第三步,進(jìn)入系統(tǒng)的面板時(shí)候點(diǎn)擊左邊的「高級(jí)系統(tǒng)配置」>「環(huán)境變量」>?「path」 >?「編輯」>「新建」;之后就輸入第一步種復(fù)制的安裝地址,點(diǎn)擊確定退出即可;



第四步,就是進(jìn)行驗(yàn)證,win+R打開運(yùn)行框,輸入cmd命令進(jìn)入命令行,然后在命令行中輸入「gdc-client」出現(xiàn)如下圖情況,即代表環(huán)境配置成功成功;

工具下載
利用工具進(jìn)行下載,打開命令行:輸入以下命令:

下載過程如下圖所示,后續(xù)就是等待數(shù)據(jù)下載完成,

數(shù)據(jù)下載完成之后,是TCGA中的選取每一個(gè)數(shù)據(jù)txt文本分別創(chuàng)造了一個(gè)相應(yīng)的文件夾,每個(gè)文件夾中都有一個(gè)對(duì)應(yīng)的gz格式的安裝包

至此,TCGA的數(shù)據(jù)下載基本介紹完了,接下來(lái)一篇文章就是介紹數(shù)據(jù)的整合,清洗,為后續(xù)的分析做準(zhǔn)備。
想要獲取更多優(yōu)質(zhì)內(nèi)容,關(guān)注微信公眾號(hào) :程序員大飛;讓我們一起成長(zhǎng)!