一、somatic與germline區(qū)別
胚系突變(Germline Mutation)和體細(xì)胞突變(Somatic Mutation)在WGS、WES、Gene Panel檢測時常常遇到,二者最大的區(qū)別是胚系突變本質(zhì)上是遺傳性,可以遺傳給后代,而體細(xì)胞突變可能對****細(xì)胞造成損害,癌變或細(xì)胞死亡,****突變不能遺傳給后代。
Germline與Somatic 生信檢測方法
Germline突變頻率主要集中在50%(雜合) , 100%(純合),一般是比對錯誤或者測序錯誤等原因產(chǎn)出噪音,干擾變異探測。我們可以使用統(tǒng)計學(xué)分析或者機(jī)器學(xué)習(xí)等方法,對潛在變異位點進(jìn)行區(qū)分,得到突變位點。
Somatic一般使用對照樣本進(jìn)行分析, 例如,取腫瘤細(xì)胞作為Tumor樣本,取血液中的白細(xì)胞或者癌旁正常細(xì)胞作為對照樣本來分析,Tumor中特有的突變?yōu)镾omatic mutation 。
二、變異檢測方法
變異檢測方法:
測序原始數(shù)據(jù)經(jīng)過清洗后的fastq文件, 比對到參考基因組上,獲得BAM文件。
根據(jù)比對質(zhì)量,過濾低比對質(zhì)量的數(shù)據(jù)。
提取每個位點的等位基因。潛在SNV位點,出現(xiàn)某些等位基因與參考等位基因不同, 如圖,第5、23和28位。這些等位基因可能是SNVs或測序錯誤
對于每一個候選SNV,可以應(yīng)用不同的統(tǒng)計方法來確定該基因座中是否存在SNV
將探測到的snv存儲在VCF文件中
當(dāng)前探測SNV的統(tǒng)計方法:
通過計算等位基因(counting alleles)
通過二項分布( binomial distribution)
通過泊松二項分布(Poisson-binomial distribution)
通過貝葉斯方法(Bayesian)
1. 基于等位基因的變異探測方法
基本方法是基于對等位基因的計數(shù)。
設(shè)D0是D中可信度高的基的子集。通常我們過濾堿基的質(zhì)量分?jǐn)?shù)≥20。因此,D0 = {bi∈D | qi≥20}。然后,在D0的所有底數(shù)中計算每個等位基因出現(xiàn)的次數(shù)。
如果D0參考等位基因的比例低于θlow(一般,20%),它被稱為純合非參序列等位基因(homozygous non-reference allele) ;
如果D0參考等位基因的比例高于θhigh(一般,80%),它被稱為純合子參考序列等位基因( homozygous reference allele);
否則,它被稱為雜合基因型。
有三個非參考序列等位基因至少出現(xiàn)一次。
對于位置5,T出現(xiàn)的時間少于20%。我們預(yù)測該基因型為AA(非參考序列等位基因純合子)。對于位置23,參考基A出現(xiàn)的頻率超過80%。我們預(yù)測該基因型為AA(參考序列等位基因純合子)。
對于28號位點,75%的reads包含參考基t。我們預(yù)測該位點的基因型為GT(雜合子位點)。
這種方法被用于許多商業(yè)軟件程序,包括Roches GSMapper, CLC基因組工作臺和DNSTAR Lasergene。測序深度高(> 20×)時效果較好。
然而,這種方法缺陷也比較明顯:
簡單的質(zhì)量過濾可能會導(dǎo)致信息丟失。
這種方法不能提供不確定性的度量。
這種方法可能會低估雜合基因型
不能給出p值
2. 基于二項分布的變異探測方法
令D = {b1,…, bn}是覆蓋特定位置的一組堿基。
設(shè)隨機(jī)變量X為n個堿基中,突變的個數(shù)。Prn (X = k)為觀察D中k個突變的概率。
假設(shè)D中有K個非參考序列堿基,假設(shè)n個堿基的排序誤差是獨立的。當(dāng)序列誤差概率p已知時(比如p = 0.01), X服從二項分布。然后,我們有
注意,有兩個基是非參考序列堿基。觀察兩個非參考變量的p值為
該方法雖然確定了不確定性概率,但沒有利用每個基的質(zhì)量分?jǐn)?shù)
3. 基于泊松分布的變異探測方法
二項分布假定對同一位置上的每個堿基的測序錯誤率是相同的。然而,不同堿基的測序錯誤率實際上是不同的。每個堿基的測序錯誤率可以通過PHRED質(zhì)量評分來估計。
設(shè)隨機(jī)變量X為非參考序列堿基個數(shù),堿基總數(shù)為n 。表示P rn(X = k) D = {b1中k個變量的概率,…,在零模型下為bn}。
我們將二項分布推廣到一個泊松二項分布,其中不同的基的序列誤差概率是不同的。然后,我們有
同樣,實際計算如下
4. 基于貝葉斯的變異探測方法
D代表觀測數(shù)據(jù)(即,特定位點的堿基), G代表位點的基因型 ,有10個可能的基因型:AA, CC, GG, TT, AC, AG, AT, CG, CT, GT 。D = {b1,…, bd}和G基因型A1A2。我們的目標(biāo)是計算Pr(G|D) ,然后,我們目標(biāo)是使Pr(G|D)最大化的基因型G。
根據(jù)貝葉斯
Pr(D|G)是后驗概率,Pr(G)先驗概率 。
** Pr(D|G) 后驗概率計算方法**
由于堿基來自不同的read,所以read base是獨立的
假設(shè)G=A1A2, Pr(bi|G) 通過下邊公式計算
ei為錯誤概率,根據(jù)堿基質(zhì)量分?jǐn)?shù)得出的。(參見本公眾號前期文章, 《測序數(shù)據(jù)質(zhì)控報告分析》文章,有詳細(xì)介紹)
Pr(G)先驗概率計算方法
G有10種可能的基因型。先驗概率Pr(G)受其為純合子參考型、雜合子或純合子非參考基因型的身份的影響。
設(shè)r為參考序列堿基,s為替代等位基因。
通常設(shè)置
Homozygous SNP rate = altHOM = 0.0005
Heterozygous SNP rate = altHET = 0.001
(例如, r=G and s=A.)
許多方法利用額外的生物信息來提高Pr(G)的估計。例如,我們可以使用已知的數(shù)據(jù)dbSNP來得出 。
計算步驟
Pr(b1=A|AG)=1/2(Pr(b1=A|A)+Pr(b1=A|G))=1/2((1-10-2)+10-2/3)=0.49667
Pr(b2=G|AG)=1/2(Pr(b2=G|A)+Pr(b2=G|G))=1/2(10-1/3+(1-10-1))=0.466667
Pr(b3=A|AG)=1/2(Pr(b3=A|A)+Pr(b3=A|G))=1/2((1-10-5)+10-5/3)=0.499997
Pr(D|AG) = 0.496670.4666670.499997 = 0.115888
Pr(AG|D) = Pr(D|AG)*Pr(AG)=0.000116
因此,我們預(yù)測該基因型為AG。
基因組分析 微信公眾號推出 《50篇文章深入理解NGS》系列文章, 第三篇文章 《變異探測算法深度解析》,爭取每周更新一篇高質(zhì)量生信干貨帖子。
請點擊 關(guān)注微信公眾號 ,**轉(zhuǎn)發(fā) **給同學(xué)和同事,您的認(rèn)可,是對我最大的支持 ,任何問題,后臺可以留言。