NGS009 生信常用數(shù)據(jù)格式

Fasta & Fastq

  • Fasta
    a也即alignment,F(xiàn)asta格式也稱為Pearson格式,是一種基于文本,用于表示核苷酸序列或氨基酸序列的格式,一般為參考基因組序列。fasta格式文件共2行,第1行是由大于號(hào)'>'頭用于序列標(biāo)記,第二行開(kāi)始為序列信息。


    image.png
  • Fastq
    q也即quality,F(xiàn)asta格式是一種存儲(chǔ)了生物序列(通常是核酸序列)以及相應(yīng)的質(zhì)量評(píng)價(jià)的文本格式,一般是測(cè)序儀的下機(jī)數(shù)據(jù)。Fastq格式以測(cè)序讀段(read)為單位存儲(chǔ),每條讀段占4 行,第一行由'@'開(kāi)始,后面跟著序列的描述信息,這點(diǎn)跟Fasta格式是一樣的。第二行是序列信息。第三行由'+'開(kāi)始,后面也可以跟著序列的描述信息。第四行是第二行序列的測(cè)序質(zhì)量評(píng)價(jià)),字符數(shù)跟第二行的序列是相等的


    image.png

SAM & BAM

當(dāng)測(cè)序得到的fastq文件map到基因組之后,通常會(huì)得到一個(gè)SAM或者BAM為擴(kuò)展名的文件。SAM的全稱是sequence alignment/map format,而B(niǎo)AM就是SAM的二進(jìn)制文件(B取自binary)。
SAM是一種序列比對(duì)后的輸出格式,以tab作為分隔符,SAM由頭文件和map結(jié)果組成。頭文件由一行以@起始的注釋構(gòu)成??瓷先ズ茴?lèi)似fastq文件,它也有read名稱,序列,質(zhì)量等信息,但是又不完全一樣。首先,每個(gè)read只占一行,但是被tab分成了很多列,共12列詳情如下:


image.png

image.png

VCF(Variant Call Format)

VCF是文本文件格式(最有可能以壓縮方式存儲(chǔ))。它包含元信息行,標(biāo)題行,然后是數(shù)據(jù)行,每個(gè)數(shù)據(jù)行都包含有關(guān)基因組中位置的信息。


image.png
  • 元信息行Meta informations
    以’##’開(kāi)始,第一行必須是VCF的版本信息
  • 標(biāo)題行及數(shù)據(jù)行:
Header line 含義 備注
CHROM 表示變異位點(diǎn)是在哪個(gè)contig 里call出來(lái)的,如果是人類(lèi)全基因組的話那就是chr1…chr22,chrX,Y,M 必填
POS 變異位點(diǎn)相對(duì)于參考基因組所在的位置,如果是indel,就是第一個(gè)堿基所在的位置 必填
ID 如果call出來(lái)的SNP存在于dbSNP數(shù)據(jù)庫(kù)里,就會(huì)顯示相應(yīng)的dbSNP里的rs編號(hào),如果沒(méi)有的話用"."表示
REF 與參考基因組相同的位點(diǎn) 必填
ALT 與參考基因組不同的位點(diǎn)
QUAL 可以理解為所call出來(lái)的變異位點(diǎn)的質(zhì)量值。Q=-10lgP,Q表示質(zhì)量值;P表示這個(gè)位點(diǎn)發(fā)生錯(cuò)誤的概率。
FILTER 如果是通過(guò)了過(guò)濾標(biāo)準(zhǔn),那么這些通過(guò)標(biāo)準(zhǔn)的好的變異位點(diǎn)的FILTER一欄就會(huì)注釋一個(gè)PASS,如果沒(méi)有通過(guò)過(guò)濾,就會(huì)在FILTER這一欄提示除了PASS的其他信息。如果這一欄是一個(gè)“.”的話,就說(shuō)明沒(méi)有進(jìn)行過(guò)任何過(guò)濾。
INFO INFO附加信息:(字母數(shù)字字符串)INFO字段被編碼為以分號(hào)分隔的一系列短鍵,其可選值的格式為:<key> = <data> [,data]。

gff/gtf

gff格式為general feature format縮寫(xiě),目前采用的是version 3。gtf文件為General Transfer Format縮寫(xiě),跟GFF2格式類(lèi)似。即常說(shuō)的gff3文件。這兩種文件常用來(lái)對(duì)基因組進(jìn)行注釋,表示基因,外顯子,CDS,UTR等在基因組上的位置。

GTF2 GFF3
reference sequence name same same
annotation source same same
feature type feature requirements depend on software can be anything
start coordinate same same
5. end coordinate same same
score not used optional
strand same same
frame same same
attributes 空格分隔 =分隔

Bed

Browser Extensible Data
Bed文件是可變的數(shù)據(jù)線,用來(lái)描述注釋的數(shù)據(jù),Bed文件有3個(gè)基本列及9個(gè)附加列

  • 基本列:基因組編號(hào),染色體起始位置,染色體結(jié)束位置。
  • 附加列
name feature 的名字
score 在基因組瀏覽器中顯示的灰度設(shè)定,取值介于0-1000
strand 定義“+”鏈或者“-”鏈
thickStart feature的起始位置
thickEnd feature的終止位置
itermRgb R,G,B (e.g. 255,0,0)值,當(dāng)itemRgb 設(shè)置為 "On",BED的行會(huì)顯示顏色
blockCount Blocks(exons)個(gè)數(shù)
blockSize Blocks(exons)的大小列表,逗號(hào)分隔
blockStarts Blocks(exons)的起始位置列表,逗號(hào)分隔
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容