麻豆三级网址在线,国产区视频在线观看,少妇五十路

1. VCF介紹

VCF是用于描述SNP，INDEL和SV結(jié)果的文本文件。在GATK軟件中得到最好的支持，當(dāng)然samtools得到的結(jié)果也是VCF格式，和GATK的VCF格式有點(diǎn)差別。推薦打開軟件：notepad++（https://notepad-plus.en.softonic.com/）

2. VCF的主體結(jié)構(gòu)

VCF文件分為兩部分內(nèi)容：以“#”開頭的注釋部分；沒有“#”開頭的主體部分。

去掉了頭部的注釋行，只留下了代表每一行意義的注釋行。

主體部分中每一行代表一個(gè)Variant的信息。

CHROM[1] POS[2] ID[3] REF[4] ALT[5] QUAL[6] FILTER[7] INFO[8] FORMAT[9] R01[10]

3. Variation

CHROM[1] 和 POS[2]：代表參考序列名和variant的位置；如果是INDEL的話，位置是INDEL的第一個(gè)堿基位置。

ID[3]：variant的ID。比如在dbSNP中有該SNP的id，則會(huì)在此行給出；若沒有，則用'.'表示其為一個(gè)novel variant。

REF[4] 和 ALT[5]：參考序列的堿基和 Variant的堿基。

QUAL[6]：Phred格式(Phred_scaled)的質(zhì)量值，表示在該位點(diǎn)存在variant的可能性；該值越高，則variant的可能性越大；計(jì)算方法：Phred值 = -10 * log (1-p) p為variant存在的概率; 通過計(jì)算公式可以看出值為10的表示錯(cuò)誤概率為0.1，該位點(diǎn)為variant的概率為90%。

FILTER[7]：使用上一個(gè)QUAL值來進(jìn)行過濾的話，是不夠的。GATK能使用其它的方法來進(jìn)行過濾，過濾結(jié)果中通過則該值為”PASS”;若variant不可靠，則該項(xiàng)不為”PASS”或”.”。

INFO[8]：這一行是variant的詳細(xì)信息，內(nèi)容很多，以下再具體詳述。

FORMAT[9] 和 R01[10]：這兩行合起來提供了’R01(某個(gè)基因名)′這個(gè)sample的基因型的信息?！疦A12878′代表這該名稱的樣品，是由BAM文件中的@RG下的 SM 標(biāo)簽決定的。

4. 基因型信息{即FORMAT[9] 和 R01[10]}

GT：樣品的基因型（genotype）。兩個(gè)數(shù)字中間用’/'分開，這兩個(gè)數(shù)字表示雙倍體的sample的基因型。0 表示樣品中有ref的allele； 1 表示樣品中variant的allele； 2表示有第二個(gè)variant的allele。因此： 0/0 表示sample中該位點(diǎn)為純合的，和ref一致； 0/1 表示sample中該位點(diǎn)為雜合的，有ref和variant兩個(gè)基因型； 1/1 表示sample中該位點(diǎn)為純合的，和variant一致。

AD 和 DP：AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號(hào)分割的兩個(gè)值，前者對(duì)應(yīng)ref基因型，后者對(duì)應(yīng)variant基因型； DP（Depth）為sample中該位點(diǎn)的覆蓋度。

GQ：基因型的質(zhì)量值(Genotype Quality)。Phred格式(Phred_scaled)的質(zhì)量值，表示在該位點(diǎn)該基因型存在的可能性；該值越高，則Genotype的可能性越大；計(jì)算方法：Phred值 = -10 * log (1-p) p為基因型存在的概率。

PL：指定的三種基因型的質(zhì)量值(provieds the likelihoods of the given genotypes)。這三種指定的基因型為(0/0,0/1,1/1)，這三種基因型的概率總和為1。和之前不一致，該值越大，表明為該種基因型的可能性越小。 Phred值 = -10 * log (p) p為基因型存在的概率。

5. VCF第8列的信息

該列信息最多了，都是以 “TAG=Value”,并使用”;”分隔的形式。其中很多的注釋信息在VCF文件的頭部注釋中給出。以下是這些TAG的解釋：

AC，AF 和 AN：AC(Allele Count) 表示該Allele的數(shù)目；AF(Allele Frequency) 表示Allele的頻率； AN(Allele Number) 表示Allele的總數(shù)目。對(duì)于1個(gè)diploid sample而言：則基因型 0/1 表示sample為雜合子，Allele數(shù)為1(雙倍體的sample在該位點(diǎn)只有1個(gè)等位基因發(fā)生了突變)，Allele的頻率為0.5(雙倍體的 sample在該位點(diǎn)只有50%的等位基因發(fā)生了突變)，總的Allele為2；基因型 1/1 則表示sample為純合的，Allele數(shù)為2，Allele的頻率為1，總的Allele為2。

DP：reads覆蓋度。是一些reads被過濾掉后的覆蓋度。

Dels：Fraction of Reads Containing Spanning Deletions。進(jìn)行SNP和INDEL calling的結(jié)果中，有該TAG并且值為0表示該位點(diǎn)為SNP，沒有則為INDEL。

FS：使用Fisher’s精確檢驗(yàn)來檢測(cè)strand bias而得到的Fhred格式的p值。該值越小越好。一般進(jìn)行filter的時(shí)候，可以設(shè)置 FS < 10～20。

HaplotypeScore：Consistency of the site with at most two segregating haplotypes.

最多有2個(gè)分離的單倍型的一致性。

InbreedingCoeff：Inbreeding coefficient as estimated from the genotype likelihoods per-sample when compared against the Hard-Weinberg expectation.

與哈代溫伯格的期望相比，近親繁殖估計(jì)每個(gè)樣品基因型的可能性。

MLEAC：Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed.

對(duì)于等位基因計(jì)數(shù)（不一定與AC相同），每個(gè)ALT 等位基因的最大似然估計(jì)，在相同的順序被列出。

MLEAF：Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT alle in the same order as listed.

對(duì)于等位基因頻率（不一定與AF相同），每個(gè)ALT 等位基因的最大似然期望，在相同的順序被列出。

MQ：RMS Mapping Quality.

RMS Mapping質(zhì)量。

MQ0：Total Mapping Quality Zero Reads.

總的Mapping 質(zhì)量零Reads 。

MQRankSum：Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities.

對(duì)Alt vs 的Wilcoxon秩和檢驗(yàn)的z 分?jǐn)?shù)。參考片段映射質(zhì)量。

QD：Variant Confidence/Quality by Depth.

Variant 通過深度的可信度和質(zhì)量。

RPA：Number of times tandem repeat unit is repeated, for each allele (including reference).

對(duì)于每個(gè)等位基因（包括參考），大量的串聯(lián)重復(fù)序列單位被重復(fù)。

RU：Tandem repeat unit (bases).

串聯(lián)重復(fù)序列單元（基礎(chǔ)）。

ReadPosRankSum：Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias.

對(duì)Alt vs 的Wilcoxon秩和檢驗(yàn)的z 分?jǐn)?shù)。參考片段位置偏差。

STR：Variant is a short tandem repeat.

Variant是一個(gè)短的串聯(lián)重復(fù)。

轉(zhuǎn)自：http://www.itdecent.cn/p/ff2eb5b38611

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

VCF文件格式說明

VCF文件格式說明

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

VCF文件格式說明

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av