Fasta & Fastq
-
Fasta
a也即alignment,F(xiàn)asta格式也稱為Pearson格式,是一種基于文本,用于表示核苷酸序列或氨基酸序列的格式,一般為參考基因組序列。fasta格式文件共2行,第1行是由大于號(hào)'>'頭用于序列標(biāo)記,第二行開(kāi)始為序列信息。
image.png -
Fastq
q也即quality,F(xiàn)asta格式是一種存儲(chǔ)了生物序列(通常是核酸序列)以及相應(yīng)的質(zhì)量評(píng)價(jià)的文本格式,一般是測(cè)序儀的下機(jī)數(shù)據(jù)。Fastq格式以測(cè)序讀段(read)為單位存儲(chǔ),每條讀段占4 行,第一行由'@'開(kāi)始,后面跟著序列的描述信息,這點(diǎn)跟Fasta格式是一樣的。第二行是序列信息。第三行由'+'開(kāi)始,后面也可以跟著序列的描述信息。第四行是第二行序列的測(cè)序質(zhì)量評(píng)價(jià)),字符數(shù)跟第二行的序列是相等的
image.png
SAM & BAM
當(dāng)測(cè)序得到的fastq文件map到基因組之后,通常會(huì)得到一個(gè)SAM或者BAM為擴(kuò)展名的文件。SAM的全稱是sequence alignment/map format,而B(niǎo)AM就是SAM的二進(jìn)制文件(B取自binary)。
SAM是一種序列比對(duì)后的輸出格式,以tab作為分隔符,SAM由頭文件和map結(jié)果組成。頭文件由一行以@起始的注釋構(gòu)成??瓷先ズ茴?lèi)似fastq文件,它也有read名稱,序列,質(zhì)量等信息,但是又不完全一樣。首先,每個(gè)read只占一行,但是被tab分成了很多列,共12列詳情如下:


VCF(Variant Call Format)
VCF是文本文件格式(最有可能以壓縮方式存儲(chǔ))。它包含元信息行,標(biāo)題行,然后是數(shù)據(jù)行,每個(gè)數(shù)據(jù)行都包含有關(guān)基因組中位置的信息。

- 元信息行Meta informations
以’##’開(kāi)始,第一行必須是VCF的版本信息 - 標(biāo)題行及數(shù)據(jù)行:
| Header line | 含義 | 備注 |
|---|---|---|
| CHROM | 表示變異位點(diǎn)是在哪個(gè)contig 里call出來(lái)的,如果是人類(lèi)全基因組的話那就是chr1…chr22,chrX,Y,M | 必填 |
| POS | 變異位點(diǎn)相對(duì)于參考基因組所在的位置,如果是indel,就是第一個(gè)堿基所在的位置 | 必填 |
| ID | 如果call出來(lái)的SNP存在于dbSNP數(shù)據(jù)庫(kù)里,就會(huì)顯示相應(yīng)的dbSNP里的rs編號(hào),如果沒(méi)有的話用"."表示 | |
| REF | 與參考基因組相同的位點(diǎn) | 必填 |
| ALT | 與參考基因組不同的位點(diǎn) | |
| QUAL | 可以理解為所call出來(lái)的變異位點(diǎn)的質(zhì)量值。Q=-10lgP,Q表示質(zhì)量值;P表示這個(gè)位點(diǎn)發(fā)生錯(cuò)誤的概率。 | |
| FILTER | 如果是通過(guò)了過(guò)濾標(biāo)準(zhǔn),那么這些通過(guò)標(biāo)準(zhǔn)的好的變異位點(diǎn)的FILTER一欄就會(huì)注釋一個(gè)PASS,如果沒(méi)有通過(guò)過(guò)濾,就會(huì)在FILTER這一欄提示除了PASS的其他信息。如果這一欄是一個(gè)“.”的話,就說(shuō)明沒(méi)有進(jìn)行過(guò)任何過(guò)濾。 | |
| INFO | INFO附加信息:(字母數(shù)字字符串)INFO字段被編碼為以分號(hào)分隔的一系列短鍵,其可選值的格式為:<key> = <data> [,data]。 |
gff/gtf
gff格式為general feature format縮寫(xiě),目前采用的是version 3。gtf文件為General Transfer Format縮寫(xiě),跟GFF2格式類(lèi)似。即常說(shuō)的gff3文件。這兩種文件常用來(lái)對(duì)基因組進(jìn)行注釋,表示基因,外顯子,CDS,UTR等在基因組上的位置。
| 列 | GTF2 | GFF3 |
|---|---|---|
| reference sequence name | same | same |
| annotation source | same | same |
| feature type | feature requirements depend on software | can be anything |
| start coordinate | same | same |
| 5. end coordinate | same | same |
| score | not used | optional |
| strand | same | same |
| frame | same | same |
| attributes | 空格分隔 | =分隔 |
Bed
Browser Extensible Data
Bed文件是可變的數(shù)據(jù)線,用來(lái)描述注釋的數(shù)據(jù),Bed文件有3個(gè)基本列及9個(gè)附加列
- 基本列:基因組編號(hào),染色體起始位置,染色體結(jié)束位置。
- 附加列
| name | feature 的名字 |
|---|---|
| score | 在基因組瀏覽器中顯示的灰度設(shè)定,取值介于0-1000 |
| strand | 定義“+”鏈或者“-”鏈 |
| thickStart | feature的起始位置 |
| thickEnd | feature的終止位置 |
| itermRgb | R,G,B (e.g. 255,0,0)值,當(dāng)itemRgb 設(shè)置為 "On",BED的行會(huì)顯示顏色 |
| blockCount | Blocks(exons)個(gè)數(shù) |
| blockSize | Blocks(exons)的大小列表,逗號(hào)分隔 |
| blockStarts | Blocks(exons)的起始位置列表,逗號(hào)分隔 |

