FASTA 文件格式
FASTA格式是一種用于表示核苷酸序列或多肽序列的文本格式。其中堿基對或氨基酸用單個字母來表示,且允許在序列前添加序列名及注釋。該格式已成為生物信息學(xué)領(lǐng)域的一項標(biāo)準(zhǔn)。
FASTA文件各行記錄信息如下:
第一行是由大于號">"開頭的任意文字說明,用于序列標(biāo)記,為了保證后續(xù)分析軟件能夠區(qū)分每條序列,單個序列的標(biāo)識必須是唯一的。
從第二行開始為序列本身,只允許使用既定的核苷酸或氨基酸編碼符號。通常核苷酸符號大小寫均可,而氨基酸常用大寫字母。注意有些程序?qū)Υ笮懹忻鞔_要求。一般每行60~80個字母。

核苷酸序列:
A --> adenosine M --> A C (amino)
C --> cytidine S --> G C (strong)
G --> guanine W --> A T (weak)
T --> thymidine B --> G T C
U --> uridine D --> G A T
R --> G A (purine) H --> A C T
Y --> T C (pyrimidine) V --> G C A
K --> G T (keto) N --> A G C T (any)
- gap of indeterminate length
氨基酸序列:
A alanine P proline
B aspartate or asparagine Q glutamine
C cystine R arginine
D aspartate S serine
E glutamate T threonine
F phenylalanine U selenocysteine
G glycine V valine
H histidine W tryptophan
I isoleucine Y tyrosine
K lysine Z glutamate or glutamine
L leucine X any
M methionine * translation stop
N asparagine - gap of indeterminate length
FASTQ 文件格式
FASTQ是一種存儲了生物序列以及相應(yīng)的質(zhì)量評價的文本格式。其序列以及質(zhì)量信息都是使用一個ASCII字符標(biāo)示,現(xiàn)在幾乎是高通量測序的標(biāo)準(zhǔn)格式。
FASTQ文件中以四行最為一個基本單元,并對應(yīng)一條序列的測序信息,各行記錄信息如下:
第一行記錄序列標(biāo)識以及相關(guān)的描述信息,以‘@’開頭,后面跟著序列的描述信息;
第二行為堿基序列;
第三行以‘+’開頭,后面是序列標(biāo)示符、描述信息,或者什么也不加;
第四行是第二行每個堿基對應(yīng)的質(zhì)量值,字符數(shù)跟第二行的序列是相等的。
