TCGA微衛(wèi)星不穩(wěn)定灶(MSI)數據處理

基本概念

微衛(wèi)星(Microsatellite):基因組中的一類短串聯(lián)重復DNA序列,一般由1-6個核苷酸組成,呈串聯(lián)重復排列。由于其核心重復單元重復次數差異,微衛(wèi)星具有群體多態(tài)性。

微衛(wèi)星不穩(wěn)定性(Microsatellite Instability,MSI):是指由于在DNA復制時插入或缺失突變引起的MS序列長度改變的現象,常由錯配修復(MMR)功能缺陷引起。MSI現象于1993年被Jacobs等人在結直腸癌中首次發(fā)現,與癌癥發(fā)生有關,可用于癌癥檢測。

產生原因:MSI的發(fā)生是由于腫瘤組織的DNA錯配修復出現功能性缺陷導致。

這是對MSI泛癌的研究
Landscape of Microsatellite Instability Across 39 Cancer Types - PMC (nih.gov)
需要了解的知識:
1.計算MSI分數的工具:MANTIS,默認閾值0.4,高于閾值為MSI-H,低于閾值為MSS(無明顯的MSI出現)。
2.最早再結直腸癌種發(fā)現,是預后良好的標志,MSI結直腸癌5年生存率要顯著高于MSS結直腸癌,MSI-H結直腸癌比MSS結直腸癌有更好的預后。

數據獲取

對于數據分析,首先要得到數據

之前習慣性的在UCSC 數據庫中下載數據,沒有發(fā)現相關msi的數據信息。搜索之后,發(fā)現有用cBioPortalData package這個包進行臨床數據下載,其中有MSI的數據。

實戰(zhàn)操作

安裝

BiocManager::install("cBioPortalData")
library(cBioPortalData)

獲得相應的研究信息

cbio <- cBioPortal()
studies = getStudies(cbio)
head(studies$studyId)

相應的研究信息類型在cancerTypeId這個字段,可以看一下都有什么樣的研究類型

table(studies$cancerTypeId)

選擇一種類型,進行下載

id = "blca_tcga_pan_can_atlas_2018"
clinical = clinicalData(cbio, id)
colnames(clinical)

我下載的是膀胱癌相關數據,可以根據cancerTypeId選擇合適的研究
然后,定義MSI相關的類型

df = na.omit(clinical[,c("patientId","MSI_SCORE_MANTIS")])
colnames(df)[2] = "MSI_score"
df$MSI_score = as.numeric(df$MSI_score)
k= df$MSI_score >0.4
table(k)

發(fā)現膀胱癌相關的MSI大于0.4的并不多,可能和相應的腫瘤有一定的關系,后續(xù)研究中再深入思考一下。

后記

其實,上面已經得到了相應的數據,可以根據自己的研究,再看看有什么有趣的發(fā)現。

但是始終沒有從UCSC上面得到這一部分數據,不知道是自己還沒找到,還是本身就沒有這一部分數據。有了解的也可以指導一下。

參考文章
100篇泛癌研究文獻解讀之微衛(wèi)星不穩(wěn)定性
cBioPortal 數據庫 API 使用
TCGA的微衛(wèi)星不穩(wěn)定性數據獲取和可視化

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容