99啪啪视频,97超碰人妻中文

Fasta & Fastq

Fasta
a也即alignment，F(xiàn)asta格式也稱為Pearson格式，是一種基于文本，用于表示核苷酸序列或氨基酸序列的格式，一般為參考基因組序列。fasta格式文件共2行，第1行是由大于號(hào)'>'頭用于序列標(biāo)記，第二行開(kāi)始為序列信息。

image.png
Fastq
q也即quality，F(xiàn)asta格式是一種存儲(chǔ)了生物序列（通常是核酸序列）以及相應(yīng)的質(zhì)量評(píng)價(jià)的文本格式，一般是測(cè)序儀的下機(jī)數(shù)據(jù)。Fastq格式以測(cè)序讀段（read）為單位存儲(chǔ)，每條讀段占4 行，第一行由'@'開(kāi)始，后面跟著序列的描述信息，這點(diǎn)跟Fasta格式是一樣的。第二行是序列信息。第三行由'+'開(kāi)始，后面也可以跟著序列的描述信息。第四行是第二行序列的測(cè)序質(zhì)量評(píng)價(jià)），字符數(shù)跟第二行的序列是相等的

image.png

SAM & BAM

當(dāng)測(cè)序得到的fastq文件map到基因組之后，通常會(huì)得到一個(gè)SAM或者BAM為擴(kuò)展名的文件。SAM的全稱是sequence alignment/map format，而B(niǎo)AM就是SAM的二進(jìn)制文件(B取自binary)。
SAM是一種序列比對(duì)后的輸出格式，以tab作為分隔符，SAM由頭文件和map結(jié)果組成。頭文件由一行以@起始的注釋構(gòu)成?？瓷先ズ茴?lèi)似fastq文件，它也有read名稱，序列，質(zhì)量等信息，但是又不完全一樣。首先，每個(gè)read只占一行，但是被tab分成了很多列，共12列詳情如下：

image.png

VCF（Variant Call Format）

VCF是文本文件格式（最有可能以壓縮方式存儲(chǔ)）。它包含元信息行，標(biāo)題行，然后是數(shù)據(jù)行，每個(gè)數(shù)據(jù)行都包含有關(guān)基因組中位置的信息。

image.png

元信息行Meta informations
以’##’開(kāi)始，第一行必須是VCF的版本信息
標(biāo)題行及數(shù)據(jù)行：

Header line	含義	備注
CHROM	表示變異位點(diǎn)是在哪個(gè)contig 里call出來(lái)的，如果是人類(lèi)全基因組的話那就是chr1…chr22，chrX,Y,M	必填
POS	變異位點(diǎn)相對(duì)于參考基因組所在的位置，如果是indel，就是第一個(gè)堿基所在的位置	必填
ID	如果call出來(lái)的SNP存在于dbSNP數(shù)據(jù)庫(kù)里，就會(huì)顯示相應(yīng)的dbSNP里的rs編號(hào)，如果沒(méi)有的話用"."表示
REF	與參考基因組相同的位點(diǎn)	必填
ALT	與參考基因組不同的位點(diǎn)
QUAL	可以理解為所call出來(lái)的變異位點(diǎn)的質(zhì)量值。Q=-10lgP，Q表示質(zhì)量值；P表示這個(gè)位點(diǎn)發(fā)生錯(cuò)誤的概率。
FILTER	如果是通過(guò)了過(guò)濾標(biāo)準(zhǔn)，那么這些通過(guò)標(biāo)準(zhǔn)的好的變異位點(diǎn)的FILTER一欄就會(huì)注釋一個(gè)PASS，如果沒(méi)有通過(guò)過(guò)濾，就會(huì)在FILTER這一欄提示除了PASS的其他信息。如果這一欄是一個(gè)“.”的話，就說(shuō)明沒(méi)有進(jìn)行過(guò)任何過(guò)濾。
INFO	INFO附加信息：（字母數(shù)字字符串）INFO字段被編碼為以分號(hào)分隔的一系列短鍵，其可選值的格式為：<key> = <data> [，data]。

gff/gtf

gff格式為general feature format縮寫(xiě)，目前采用的是version 3。gtf文件為General Transfer Format縮寫(xiě)，跟GFF2格式類(lèi)似。即常說(shuō)的gff3文件。這兩種文件常用來(lái)對(duì)基因組進(jìn)行注釋，表示基因，外顯子，CDS，UTR等在基因組上的位置。

列	GTF2	GFF3
reference sequence name	same	same
annotation source	same	same
feature type	feature requirements depend on software	can be anything
start coordinate	same	same
5. end coordinate	same	same
score	not used	optional
strand	same	same
frame	same	same
attributes	空格分隔	=分隔

Bed

Browser Extensible Data
Bed文件是可變的數(shù)據(jù)線，用來(lái)描述注釋的數(shù)據(jù)，Bed文件有3個(gè)基本列及9個(gè)附加列

基本列：基因組編號(hào)，染色體起始位置，染色體結(jié)束位置。
附加列

name	feature 的名字
score	在基因組瀏覽器中顯示的灰度設(shè)定，取值介于0-1000
strand	定義“+”鏈或者“-”鏈
thickStart	feature的起始位置
thickEnd	feature的終止位置
itermRgb	R,G,B (e.g. 255,0,0)值，當(dāng)itemRgb 設(shè)置為 "On"，BED的行會(huì)顯示顏色
blockCount	Blocks（exons）個(gè)數(shù)
blockSize	Blocks（exons）的大小列表，逗號(hào)分隔
blockStarts	Blocks（exons）的起始位置列表，逗號(hào)分隔

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

NGS009 生信常用數(shù)據(jù)格式

NGS009 生信常用數(shù)據(jù)格式

Fasta & Fastq

SAM & BAM

VCF（Variant Call Format）

gff/gtf

Bed

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

NGS009 生信常用數(shù)據(jù)格式

Fasta & Fastq

SAM & BAM

VCF（Variant Call Format）

gff/gtf

Bed

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av