Mutational Patterns進(jìn)行腫瘤 突變頻譜 分析

MutationalPatterns是一個(gè)bioconductor上的R包,可以用于腫瘤突變頻譜的分析。腫瘤突變頻譜針對(duì)點(diǎn)突變進(jìn)行定義,A,T,C,G四種堿基兩兩突變,共有4X3=12種排列,考慮到正負(fù)鏈堿基配對(duì)原則,正鏈上的A->C突變,對(duì)應(yīng)負(fù)鏈上為T(mén)->G, 所以進(jìn)一步轉(zhuǎn)換成了一個(gè)組合的問(wèn)題,所以某個(gè)位點(diǎn)的突變可以劃分為以下6種模式

C>A, 表示C>A和G>T兩種

C>G, 表示C>G和G>C兩種

C>T, 表示C>T和G>A兩種

T>A,表示T>A和A>T兩種

T>C,表示T>C和A>G兩種

T>G,表示T>G和A>C兩種

進(jìn)一步考慮突變位點(diǎn)所處的序列上下文環(huán)境,即上下游各取一個(gè)堿基再加上突變位點(diǎn)的堿基,組成了3個(gè)堿基的motif,? 可以有4X4X6=96種模式,每種模式的頻率分布就是突變頻譜。突變頻譜可以當(dāng)做一個(gè)腫瘤樣本的特征,進(jìn)行樣本間的比較。通過(guò)MutationalPatterns包,可以方便的根據(jù)樣本對(duì)應(yīng)的VCF文件,提取突變頻譜的信息,首先讀取文件,代碼如下

————————————————

# 加載R包

> library(MutationalPatterns)

# 列出vcf的路徑

> vcf_files <- c("sample1.vcf", "sample2.vcf")

# 設(shè)置vcf文件對(duì)應(yīng)的樣本名稱

> sample_names <- c("sample1", "sample2")

# 加載參考基因組

> library(BSgenome.Hsapiens.UCSC.hg19)

> ref_genome <- "BSgenome.Hsapiens.UCSC.hg19"

# 讀取vcf文件

> vcfs <- read_vcfs_as_granges(vcf_files, sample_names, ref_genome)

讀取完成之后,可以先統(tǒng)計(jì)下6種不同的點(diǎn)突變模式的分布,代碼如下

> type_occurrences <- mut_type_occurrences(vcfs, ref_genome)

> plot_spectrum(type_occurrences)

可視化結(jié)果示意如下

該R包經(jīng)典的使用場(chǎng)景如下

1. 計(jì)算樣本突變頻譜

根據(jù)vcf文件,計(jì)算每個(gè)樣本中96種motif的頻數(shù),并可視化,代碼如下

> mut_mat <- mut_matrix(vcf_list = vcfs, ref_genome = ref_genome)

> plot_96_profile(mut_mat[,c(1,2)], condensed = TRUE)

可視化結(jié)果示意如下

2. 比較兩個(gè)樣本間突變頻譜分布的差異

代碼如下

> plot_compare_profiles(mut_mat[,1], mut_mat[,2], condensed = TRUE)

可視化結(jié)果示意如下

左上角的給出了兩個(gè)頻譜間cosine similarity相似度,圖片中前兩層分別對(duì)應(yīng)兩個(gè)需要比較的頻譜,第三層為兩個(gè)頻譜的差異,直接用頻率相減。

3.? NMF find mutation signature

通過(guò)非負(fù)矩陣分解NMF算法,從原始的突變頻譜中提取特征,稱之為突變特征mutation signature,代碼如下

> library(NMF)

> estimate <- nmf(mut_mat, rank=2:5, method="brunet", nrun=10, seed=123456)

> nmf_res <- extract_signatures(mut_mat, rank = 2, nrun = 10)

> colnames(nmf_res$signatures) <- c("Signature A", "Signature B")

> rownames(nmf_res$contribution) <- c("Signature A", "Signature B")

> plot_96_profile(nmf_res$signatures, condensed = TRUE)

4. mutation singnature contribution

每個(gè)樣本的突變頻譜是不同突變特征組成的結(jié)果,通過(guò)如下代碼可視化每個(gè)樣本中不同突變特征的貢獻(xiàn)率

plot_contribution(nmf_res$contribution, nmf_res$signature, mode = "relative")

可視化結(jié)果示意如下

5. 比較多個(gè)突變頻譜/突變特征之間的相似性,

計(jì)算圖片頻譜間的cosine similarity相似度,結(jié)果用熱圖展現(xiàn),代碼如下

> cos_sim_samples_signatures = cos_sim_matrix(mut_mat, mut_mat)

> plot_cosine_heatmap(cos_sim_samples_signatures)

可視化的結(jié)果示意如下

通過(guò)這個(gè)R包,可以輕松實(shí)現(xiàn)突變頻譜的常見(jiàn)分析內(nèi)容。

————————————————

版權(quán)聲明:本文為CSDN博主「生信修煉手冊(cè)」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。

原文鏈接:https://blog.csdn.net/weixin_43569478/article/details/108079587

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 得益于曾老師的介紹引導(dǎo),了解此包。了解一個(gè)包,先看包的說(shuō)明書(shū),包的用法都在里面。maftools包說(shuō)明書(shū) 1.安裝...
    Dr_grass閱讀 22,200評(píng)論 7 39
  • Part0背景知識(shí) Q:什么是外顯子測(cè)序呢?A:外顯子組測(cè)序是指利用序列捕獲或者靶向技術(shù)將全基因組外顯子區(qū)域DNA...
    天秤座的機(jī)器狗閱讀 10,837評(píng)論 5 63
  • 16宿命:用概率思維提高你的勝算 以前的我是風(fēng)險(xiǎn)厭惡者,不喜歡去冒險(xiǎn),但是人生放棄了冒險(xiǎn),也就放棄了無(wú)數(shù)的可能。 ...
    yichen大刀閱讀 7,566評(píng)論 0 4
  • 公元:2019年11月28日19時(shí)42分農(nóng)歷:二零一九年 十一月 初三日 戌時(shí)干支:己亥乙亥己巳甲戌當(dāng)月節(jié)氣:立冬...
    石放閱讀 7,385評(píng)論 0 2

友情鏈接更多精彩內(nèi)容