我們平時使用TCGA的使用,基本都是下載臨床特征數(shù)據(jù),生存數(shù)據(jù),基因表達(dá)量,高級一點(diǎn)的還可以去下載體細(xì)胞突變,拷貝變異數(shù)和DNA甲基化等。如果知道一些算法,還可以去獲取MSI(微衛(wèi)星不穩(wěn)定性)、腫瘤免疫微環(huán)境等等。
但是,TCGA的數(shù)據(jù)遠(yuǎn)不止于此,關(guān)于腫瘤學(xué)研究,尤其是病理學(xué)醫(yī)師,可能更關(guān)心的是獲得病理學(xué)報告和切片圖像等信息,其實(shí)在HPA數(shù)據(jù)里我們也是可以看到一些患者的組織學(xué)切片的圖片,今天我們講講如何通過R語言包TCGAbiolinks獲取病理學(xué)報告和切片圖像。
安裝和加載包
由于TCGAbiolinks這個包是Bioconductor上的包,如果網(wǎng)絡(luò)不好的話,建議提前設(shè)置鏡像。
## 設(shè)置清華大學(xué)鏡像,可以提高下載速度
options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")
## 安裝TCGAbiolinks包
BiocManager::install("TCGAbiolinks")
## 加載TCGAbiolinks包
library(TCGAbiolinks)
獲取病理學(xué)報告 (PDF格式)
首先進(jìn)行查詢,然后下載,可以一次性查詢多個患者,也可以輸入患者的編碼精準(zhǔn)查詢
## 首先可以設(shè)置一個目標(biāo)文件夾
setwd("~/Desktop/TCGA/COAD") ## 設(shè)置目標(biāo)文件夾
# 從legacy獲取病理報告
query.legacy <- GDCquery(project = "TCGA-COAD", ## 腫瘤類型,可以修改
data.category = "Clinical", ##數(shù)據(jù)分類為臨床
data.type = "Pathology report", ## 數(shù)據(jù)類型為病理學(xué)報告
legacy = TRUE,
barcode = c("TCGA-RU-A8FL","TCGA-AA-3972") ##制定患者編號
)
我們可以看下查詢的內(nèi)容,提示PDF是open狀態(tài)。
getResults(query.legacy)[, 1:4]
| row | id | data_format | access | cases |
|---|---|---|---|---|
| 7 | a4753077-2bd3-4301-8424-b7575c8ccd66 | open | TCGA-RU-A8FL | |
| 365 | b77a41e9-cf0d-4b94-9576-09e91b6d8f61 | open | TCGA-AA-3972 |
下載的話,只需要一個GDCdownload()函數(shù)即可
GDCdownload(query.legacy)
接著就是等待自動下載,這個根據(jù)網(wǎng)絡(luò)而已,由于pdf的格式較小,下載速度還是比較快的,之后就會在目標(biāo)文件夾新生成一個GDCdata的文件夾,再往下分別是/TCGA-COAD/legacy/Clinical,這里有兩個文件夾,打開后里面就是我們需要的pdf報告了。



獲取組織學(xué)切片圖像(SVS格式)
TCGA的組織學(xué)切片圖像,包括了組織切片(Tissue slide image)和診斷切片(Diagnostic Slide)兩種,數(shù)據(jù)庫有l(wèi)egacy和harmonized 兩種類型,結(jié)果都是一樣的。我們可以通過查詢函數(shù)進(jìn)行更多細(xì)節(jié)的提取,但是由于SVS格式一般都很大,我運(yùn)行的這個有100M以上,所以下載圖像數(shù)據(jù)也是非??简?yàn)網(wǎng)速的,我們可以試著下載一兩個數(shù)據(jù)。。
先建立查詢
# 從legacy數(shù)據(jù)庫獲取組織學(xué)切片圖片文件
query.legacy <- GDCquery(project = "TCGA-COAD",
data.category = "Clinical",
data.type = "Tissue slide image",
legacy = TRUE,
barcode = c("TCGA-RU-A8FL","TCGA-AA-3972"))
# 從harmonized數(shù)據(jù)庫獲取組織學(xué)切片圖片文件
query.harmonized <- GDCquery(project = "TCGA-OV",
data.category = "Biospecimen",
data.type = 'Slide Image')
## 從harmonized數(shù)據(jù)庫獲取診斷性切片圖片
query.harmonized2 <- GDCquery(project = "TCGA-COAD",
data.category = "Biospecimen",
data.type = "Slide Image",
experimental.strategy = "Diagnostic Slide",
barcode = c("TCGA-RU-A8FL","TCGA-AA-3972"))
之后就是下載數(shù)據(jù)了,比如我們下載query.harmonized2的SVS圖片
GDCdownload(query.harmonized2)
接下來,就是漫長的等待,我這個數(shù)據(jù)是145.7M,大概用了20分鐘才下載完成。

打開SVS格式的圖片需要專門的閱讀器,這個搞病理學(xué)的應(yīng)該懂
網(wǎng)上有關(guān)于病理學(xué)圖片的機(jī)器學(xué)習(xí)的文章,如果想從這個方向入手的話,就慢慢下載數(shù)據(jù)吧。。。。