TCGA樣本命名規(guī)則

在TCGA中,一個患者可能會對應(yīng)多個樣本,如TCGA-A6-6650可以得到3個樣本數(shù)據(jù):

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
大家知道一般在做TCGA數(shù)據(jù)分析的時候樣本名實際上只保留到前四個元素(以”-“分割),例如TCGA-A6-6650-01。所以實際上上示3個樣本一般只保留一個,那該怎么取舍呢?

在取舍之前,當然要先搞清楚樣本命名方式:

我們將此示圖以”-“分割,具體拆開解讀一下:

TCGA:Project, 所有TCGA樣本名均以這個開頭,標志
A6:Tissue source site,組織來源編碼,如A6就表示來源于Christiana Healthcare中心的結(jié)腸癌組織。更多編碼所代表的意義詳見:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
6650:Participant, 參與者編號
01:Sample, 這兩個數(shù)字可以說是最關(guān)鍵、最被大家注意的,其中編號0109表示腫瘤,1019表示正常對照,如下:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes
所以在TCGA樣本名中,這個位置最常見的就是01和11,當然偶爾也會有其他的數(shù)字
A:Vial, 在一系列患者組織中的順序,絕大多數(shù)樣本該位置編碼都是A; 很少數(shù)的是B,表示福爾馬林固定石蠟包埋組織,已被證明用于測序分析的效果不佳,所以不建議使用-01B的樣本數(shù)據(jù):
所以命名至此,已經(jīng)可以開始用于區(qū)別不同的樣本了,以下將是更細節(jié)的描述:

11:Portion, 同屬于一個患者組織的不同部分的順序編號,同一組織會分割為100-120mg的部分,分別使用
R:Analyte, 分析的分子類型,對應(yīng)關(guān)系如下所示:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/portion-analyte-codes
1774:Plate, 在一系列96孔板中的順序,值大表示制板越晚
07:Center, 測序或鑒定中心編碼,更多編碼詳見:
https://tcga-data.nci.nih.gov/datareports/codeTablesReport.htm?codeTable=center
一個借鑒的圖片:

更多內(nèi)容詳見:
https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
http://docs.cavatica.org/docs/tcga-grch38-metadata

所以現(xiàn)在看這三個樣本:

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
其區(qū)別就在于,前兩個使用的是患者的冰凍組織做的測序,而第三個用的是福爾馬林固定石蠟包埋組織;而前兩個樣本的區(qū)別在于同一組織后續(xù)使用了不同的96孔板。

理解了命名規(guī)則及三者命名上的主要區(qū)別后,現(xiàn)在可以重點解決如何從一個患者的多個樣本中挑選樣本的問題了,首先排除TCGA-A6-6650-01B-02R-A277-07,因為是-01B,福爾馬林固定石蠟包埋組織!剩下的兩個:

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
先看看GDAC firehose遇到這種情況怎么解決,總結(jié)起來就是:

1、對RNA數(shù)據(jù)來說,Analyte為R的優(yōu)先級最該,其次是R和T,而對于DNA層面的分析來說,D的優(yōu)先級最高。
2、如果Analyte相同,那就選擇Portion和/或Plate值更大的。
所以按照GDAC firehose的方法,最終保留TCGA-A6-6650-01A-11R-A278-07,因為其相對于TCGA-A6-6650-01A-11R-1774-07的板號(Plate)更晚:
https://github.com/BioinformaticsFMRP/TCGAbiolinks/issues/163
雖然看起來可能這么選比較準確,但是稍微有些麻煩~

然后是cBioPortal中的處理方式:

隨機選擇了一個,理由很簡單啊,來源于同一個患者的癌組織樣本差別不大,小編隨機測試了兩個樣本,表達相關(guān)性值是大于0.8的。

所以如果遇到需要選擇的時候,就仁者見仁了,建議天秤座的小伙伴們也不要太糾結(jié)到底哪個最好,當然如果你有不同的意見和看法,歡迎交流討論!
————————————————

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容