前面給大家介紹了MAF文件格式
? MAF格式(mutation annotation format)
以及如何從TCGA數(shù)據(jù)庫下載MAF格式的突變數(shù)據(jù)。
? 如何從TCGA數(shù)據(jù)庫下載體細胞突變數(shù)據(jù)(somatic mutation)
今天我們來講講,怎么用R的maftools包來分析MAF格式的突變數(shù)據(jù),并用瀑布圖來展示結(jié)果。maftools這個包的主要分為兩部分功能,分析和可視化。下圖列出了,這個包中相應(yīng)的函數(shù)的名字。

我們先用maftools包自帶的數(shù)據(jù),給大家講解這個包的使用方法。后面再來實戰(zhàn),重現(xiàn)SCI文章中的瀑布圖。
#安裝maftools包
BiocManager::install("maftools")
#加載maftools包
library(maftools)
#指定maf文件的路徑和名字
laml.maf = system.file('extdata', 'tcga_laml.maf.gz', package = 'maftools')
#讀取maf文件
laml = read.maf(maf = laml.maf, clinicalData = laml.clin)
#輸出對象
laml
我們可以看到laml里面存的是一個MAF的對象,以及各種突變的統(tǒng)計信息

接下來我們可以對所有樣本里面突變的summary信息進行可視化
pdf(file="maf_summary.pdf",width =12,height=7)
plotmafSummary(maf = laml,addStat = 'median')
dev.off()
我們會得到下面的一張突變的匯總圖,包括各種突變分類統(tǒng)計圖,突變類型統(tǒng)計圖,堿基改變統(tǒng)計圖,每個樣本包含突變數(shù)統(tǒng)計圖,樣本中各種突變分類的箱型圖,突變最多的10個基因所包含的突變類型,以及樣本占比情況。

接下來我們就可以來繪制瀑布圖了,我們可以通過top來控制展示多少個突變最多的基因,這里展示20個突變最多的基因。
pdf(file="oncoplot.pdf",width =12,height=7)
oncoplot(maf = laml, top = 20)
dev.off()
我們可以得到下面這張瀑布圖

這張圖最上面展示的是每個樣本的TMB(tumor mutation burden,腫瘤突變負荷),每兆堿基(每1百萬個堿基)中體細胞突變的數(shù)目。TMB可以作為一種新興腫瘤免疫治療生物標志物。中間類似瀑布的部分展示的是每個基因在每個樣本中的突變情況。每一行是一個基因,每一列是一個樣本。不同的顏色表示不同的不變類型。具體可以查看左下角的圖注。右邊的柱形圖表示包含該基因突變樣本的占比,以及突變類型的組成。
到這里我們瀑布圖的繪制就完成了,是不是很簡單。后面我們會找一篇SCI文章中的瀑布圖來復現(xiàn)。