之前分析TCGA數(shù)據(jù)都是直接匹配barcode,其規(guī)則懂的不多。相信有不少同志也有這方面困惑。
這里給出兩份資料,一份是TCGA官方英文介紹,鏈接為
https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
另一份是中文資料,轉(zhuǎn)自https://www.baidu.com/link?url=GyuSeuhEi1UDqkQMDcX8hbMEayyYXrdjLstV1Uew3kroGfJkVqDNGMMpe0tklyXshG243XKUsdiZ1TWuiSw-V_&wd=&eqid=caaee2c9000004fb000000035a62ef31
這是實戰(zhàn)TCGA數(shù)據(jù)庫的又一個知識點,如果你已經(jīng)對TCGA有淺顯的認(rèn)識,那么我們應(yīng)該根據(jù)研究方向找到自己的癌癥類型,TCGA有一臺完整的癌癥分型,慢慢這個分型也成為了主流,你別不服氣,如果我們有這樣的科研實力和共享魄力,一樣可以得到科研界的認(rèn)可,可是路漫漫,幸好我們都在路上,至少現(xiàn)在的統(tǒng)計顯示,國內(nèi)發(fā)表關(guān)于TCGA的文章數(shù)據(jù)已經(jīng)過半數(shù)了。

最重要的癌癥類型有32個,會帶領(lǐng)大家一個一個來認(rèn)識,以后分析學(xué)習(xí)的時候可以直接查看,如果是全英文的,那你會說,這個我也知道,放心,當(dāng)然會給大家簡單中文檢索的。他們分別是:
ACC 腺樣囊性癌
BLCA 膀胱癌
BRCA 乳腺癌
CESC 宮頸鱗狀細(xì)胞癌
CHOL 膽癌
COAD 結(jié)腸癌
DLBC 淋巴癌
ESCA 食管癌
GBMLGG 腦癌
HNSC 頭頸部鱗癌
KICH 嫌色細(xì)胞癌
KIRC 腎透明細(xì)胞癌
KIRP 乳頭狀腎細(xì)胞癌
LAML 骨髓癌
LIHC 肝癌
LUAD 肺腺癌
LUSC 肺鱗狀細(xì)胞癌
MESO 胸膜癌
OV 卵巢癌
PAAD 胰腺癌
PCPG 腎上腺癌
PRAD 前列腺癌
READ 直腸癌
SARC 軟組織癌
SKCM 皮膚癌
STAD 胃癌
TGCT 睪丸癌
THCA 甲狀腺癌
THYM 胸腺癌
UCEC 子宮內(nèi)膜癌
UCS 子宮癌
UVM 眼癌
這樣展示給大家,會不會很唐突,大家保存就是了,整理是需要時間和經(jīng)理的,具體每個癌癥的詳情,還需要大家一起去完善。不知道有找到自己需要研究的癌癥類型呢?找到了癌癥的類型,帶大家來認(rèn)識一下癌癥大數(shù)據(jù)里最常見,最有標(biāo)志性的,樣本代號,這個估計也要變成國際標(biāo)準(zhǔn)了,相信科研組在考慮如何命名是也是下足了功夫,因為TCGA數(shù)據(jù)量大,涉及的樣本多,每個樣本的表達(dá)數(shù)據(jù)類型有多,太簡單的話無法檢索需求啊,太難更不行了,會被嫌棄的!

舉個樣本例子給大家:
TCGA-02-0001-01C-01D-0182-01
就這么一個簡單的代號,包含著多少信息,又包含著多少科研工作的熱情和心血。
TCGA命名每個字段的意義
Project-TSS-Participant-Sample&Vial-Portion&Analyte-Plate-Center
TCGA:Project 項目名稱
02:TSS 組織來源代碼
0001:Participant 科研參與者
01:Sample 樣本號
C:Vial 樣本序列中樣本的階數(shù)
01:Portion 順序中部分的次序
D:Analyte
0182:Plate 順序中的板的順序
01:Center 測序鑒定

看了這么多,是不是有點糊涂了,其實這個代碼中,最重要的就是第四個字段,也就是01C,準(zhǔn)確的說01對我們來說非常重要,這個sample的數(shù)字是從01-29的,其中01-09是tumor,也就是癌癥樣本;其中10-29是normal,也就是癌旁;這個對于每個研究者才是最重要的,當(dāng)然,這個必須記住,只有記住這個,后期才能做差異分析,生存分析,如果連腫瘤樣本和癌旁樣本都區(qū)分不了,何談后續(xù)分析呢?
業(yè)內(nèi)有人戲說:“一入TCGA深似?!?,這可見癌癥譜圖有多大,我們有多渺小,對于科研數(shù)據(jù),我們應(yīng)該懷著一顆敬畏和空杯的心態(tài),一步一步,不如TCGA大數(shù)據(jù)的殿堂,去挖掘?qū)Π┌Y分析、治療有用的數(shù)據(jù)庫,也不枉TCGA曾經(jīng)定下的目標(biāo)和宏偉夢想。