在瀏覽核酸蛋白質(zhì)數(shù)據(jù)庫的時(shí)候會(huì)經(jīng)常遇見不同的文件格式,常見的有Fasta格式文件、NBRF/PIR格式文件、 EMBL/SWISSPROT格式文件、Clustal(*.aln)格式文件、GCG/MSF(Pileup)格式文件、RSF 格式文件、GDE格式文件、Mega格式文件、Genbank格式文件、NEXUS格式文件、Phylip格式文件等。
Fasta格式
Fasta格式包含序列文件和質(zhì)量文件
1.Fasta序列文件格式是核酸蛋白數(shù)據(jù)最常見的一種文件格式,第一行以'<'開頭引導(dǎo)的序列名稱開始,后面接序列的詳細(xì)信息,隨后的行接序列,每一行序列長(zhǎng)度不超過80。序列由標(biāo)準(zhǔn)的IUB/IUPAC氨基酸和核酸代碼表,出常見的ATCGU、20種常見氨基酸外還有下表1.1和1.2中代表的字符,'-'代表不明長(zhǎng)度的字符序列。
2.Fasta格式質(zhì)量文件第一行和序列文件一樣,只是序列部分對(duì)應(yīng)的是每個(gè)堿基的質(zhì)量,用空格分隔。

表1.1

表1.2
Fasta格式序列文件

氨基酸序列文件

核酸序列文件

DNA質(zhì)量文件