久久精品国产午夜伦理,亚洲乱色熟女

一、somatic與germline區(qū)別

image

胚系突變（Germline Mutation）和體細(xì)胞突變（Somatic Mutation）在WGS、WES、Gene Panel檢測時常常遇到，二者最大的區(qū)別是胚系突變本質(zhì)上是遺傳性，可以遺傳給后代，而體細(xì)胞突變可能對****細(xì)胞造成損害，癌變或細(xì)胞死亡，****突變不能遺傳給后代。

Germline與Somatic 生信檢測方法

Germline突變頻率主要集中在50%（雜合）， 100%（純合），一般是比對錯誤或者測序錯誤等原因產(chǎn)出噪音，干擾變異探測。我們可以使用統(tǒng)計學(xué)分析或者機(jī)器學(xué)習(xí)等方法，對潛在變異位點進(jìn)行區(qū)分，得到突變位點。

Somatic一般使用對照樣本進(jìn)行分析，例如，取腫瘤細(xì)胞作為Tumor樣本，取血液中的白細(xì)胞或者癌旁正常細(xì)胞作為對照樣本來分析，Tumor中特有的突變?yōu)镾omatic mutation 。

二、變異檢測方法

image

變異檢測方法：

測序原始數(shù)據(jù)經(jīng)過清洗后的fastq文件，比對到參考基因組上，獲得BAM文件。
根據(jù)比對質(zhì)量，過濾低比對質(zhì)量的數(shù)據(jù)。
提取每個位點的等位基因。潛在SNV位點，出現(xiàn)某些等位基因與參考等位基因不同，如圖，第5、23和28位。這些等位基因可能是SNVs或測序錯誤
對于每一個候選SNV，可以應(yīng)用不同的統(tǒng)計方法來確定該基因座中是否存在SNV
將探測到的snv存儲在VCF文件中

image

當(dāng)前探測SNV的統(tǒng)計方法:

通過計算等位基因（counting alleles）
通過二項分布（ binomial distribution）
通過泊松二項分布（Poisson-binomial distribution）
通過貝葉斯方法（Bayesian）

1. 基于等位基因的變異探測方法

基本方法是基于對等位基因的計數(shù)。

設(shè)D0是D中可信度高的基的子集。通常我們過濾堿基的質(zhì)量分?jǐn)?shù)≥20。因此，D0 = {bi∈D | qi≥20}。然后，在D0的所有底數(shù)中計算每個等位基因出現(xiàn)的次數(shù)。

如果D0參考等位基因的比例低于θlow(一般,20%),它被稱為純合非參序列等位基因（homozygous non-reference allele） ;
如果D0參考等位基因的比例高于θhigh(一般,80%),它被稱為純合子參考序列等位基因（ homozygous reference allele）;
否則，它被稱為雜合基因型。

image

有三個非參考序列等位基因至少出現(xiàn)一次。

對于位置5，T出現(xiàn)的時間少于20%。我們預(yù)測該基因型為AA(非參考序列等位基因純合子)。對于位置23，參考基A出現(xiàn)的頻率超過80%。我們預(yù)測該基因型為AA(參考序列等位基因純合子)。

對于28號位點，75%的reads包含參考基t。我們預(yù)測該位點的基因型為GT(雜合子位點)。

這種方法被用于許多商業(yè)軟件程序，包括Roches GSMapper, CLC基因組工作臺和DNSTAR Lasergene。測序深度高(> 20×)時效果較好。

然而，這種方法缺陷也比較明顯：

簡單的質(zhì)量過濾可能會導(dǎo)致信息丟失。
這種方法不能提供不確定性的度量。
這種方法可能會低估雜合基因型
不能給出p值

2. 基于二項分布的變異探測方法

令D = {b1，…， bn}是覆蓋特定位置的一組堿基。

設(shè)隨機(jī)變量X為n個堿基中，突變的個數(shù)。Prn (X = k)為觀察D中k個突變的概率。

假設(shè)D中有K個非參考序列堿基，假設(shè)n個堿基的排序誤差是獨立的。當(dāng)序列誤差概率p已知時(比如p = 0.01)， X服從二項分布。然后,我們有

image

三條read覆蓋位置 j，位置 j 的三個堿基為D = {A, G, A}。

image

注意，有兩個基是非參考序列堿基。觀察兩個非參考變量的p值為

image

該方法雖然確定了不確定性概率，但沒有利用每個基的質(zhì)量分?jǐn)?shù)

3. 基于泊松分布的變異探測方法

二項分布假定對同一位置上的每個堿基的測序錯誤率是相同的。然而，不同堿基的測序錯誤率實際上是不同的。每個堿基的測序錯誤率可以通過PHRED質(zhì)量評分來估計。

設(shè)隨機(jī)變量X為非參考序列堿基個數(shù)，堿基總數(shù)為n 。表示P rn(X = k) D = {b1中k個變量的概率，…，在零模型下為bn}。

我們將二項分布推廣到一個泊松二項分布，其中不同的基的序列誤差概率是不同的。然后,我們有

image

同樣，實際計算如下

image

4. 基于貝葉斯的變異探測方法

D代表觀測數(shù)據(jù)(即,特定位點的堿基)， G代表位點的基因型，有10個可能的基因型:AA, CC, GG, TT, AC, AG, AT, CG, CT, GT 。D = {b1,…, bd}和G基因型A1A2。我們的目標(biāo)是計算Pr(G|D) ，然后，我們目標(biāo)是使Pr(G|D)最大化的基因型G。

根據(jù)貝葉斯

image

Pr(D|G)是后驗概率，Pr(G)先驗概率。

** Pr(D|G) 后驗概率計算方法**

由于堿基來自不同的read，所以read base是獨立的

image

假設(shè)G=A1A2, Pr(bi|G) 通過下邊公式計算

image

ei為錯誤概率，根據(jù)堿基質(zhì)量分?jǐn)?shù)得出的。（參見本公眾號前期文章，《測序數(shù)據(jù)質(zhì)控報告分析》文章，有詳細(xì)介紹）

image

Pr(G)先驗概率計算方法

G有10種可能的基因型。先驗概率Pr(G)受其為純合子參考型、雜合子或純合子非參考基因型的身份的影響。

設(shè)r為參考序列堿基，s為替代等位基因。

通常設(shè)置

Homozygous SNP rate = altHOM = 0.0005

Heterozygous SNP rate = altHET = 0.001

(例如, r=G and s=A.)

image

許多方法利用額外的生物信息來提高Pr(G)的估計。例如，我們可以使用已知的數(shù)據(jù)dbSNP來得出。

計算步驟

Pr(b1=A|AG)=1/2(Pr(b1=A|A)+Pr(b1=A|G))=1/2((1-10-2)+10-2/3)=0.49667

Pr(b2=G|AG)=1/2(Pr(b2=G|A)+Pr(b2=G|G))=1/2(10-1/3+(1-10-1))=0.466667

Pr(b3=A|AG)=1/2(Pr(b3=A|A)+Pr(b3=A|G))=1/2((1-10-5)+10-5/3)=0.499997

Pr(D|AG) = 0.496670.4666670.499997 = 0.115888

Pr(AG|D) = Pr(D|AG)*Pr(AG)=0.000116

因此，我們預(yù)測該基因型為AG。

image

基因組分析 微信公眾號推出《50篇文章深入理解NGS》系列文章，第三篇文章《變異探測算法深度解析》，爭取每周更新一篇高質(zhì)量生信干貨帖子。

請點擊 關(guān)注微信公眾號 ，**轉(zhuǎn)發(fā) **給同學(xué)和同事，您的認(rèn)可，是對我最大的支持，任何問題，后臺可以留言。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

變異探測算法深度解析

變異探測算法深度解析

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

變異探測算法深度解析

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av