
常用數(shù)據(jù)格式介紹
DNA序列表征
A =腺嘌呤
C =胞嘧啶
G =鳥(niǎo)嘌呤
T =胸腺嘧啶
U =尿嘧啶
R = GA(嘌呤)
Y = TC(嘧啶)
K = GT(酮)
M = AC(氨基)
S = GC
W = AT
B = GTC
D = GAT
H = ACT
V = GCA
N = AGCT(任何)
Fastq & Fasta
Fastq格式:一種基于文本的,保存生物序列(通常是核酸序列)和其測(cè)序質(zhì)量信息的標(biāo)準(zhǔn)格式,一般都包含有4行。
第一行:由‘@’開(kāi)始,后面跟著序列ID和可選的描述,序列ID是唯一的;
第二行:堿基序列;
第三行:由‘+’開(kāi)始,后面是序列的描述信息;
第四行:第二行序列的質(zhì)量評(píng)價(jià)(quality value)。
舉例:
@HISEQ:777:HCMCVBCX2:1:1101:4712:2186 1:N:0:TACTCCAG
HISEQ:儀器 ID
777:Run ID
HCMCVBCX2:FlowCell ID
1:The lane number
1101:流通池道內(nèi)的tile號(hào)碼
4712:瓦片中的集群的‘x'坐標(biāo)
2186:瓦片中的集群的’y'坐標(biāo)
1:成對(duì)的成員,1或2(配對(duì)結(jié)束或配對(duì)讀取)
N:如果讀取過(guò)濾,則為Y;否則為N
0:當(dāng)沒(méi)有控制位開(kāi)啟時(shí)為0,否則為偶數(shù)
TACTCCAG:索引序列
Fasta格式:
1:以“>”為開(kāi)頭,fasta格式標(biāo)志。
2:序列ID號(hào),gi號(hào),NCBI數(shù)據(jù)庫(kù)的標(biāo)識(shí)符,具有唯一性。
格式為:gi|gi號(hào)|來(lái)源標(biāo)志|序列標(biāo)志(接收號(hào)、名稱等),若某項(xiàng)缺失可以留空,“|”保留。
3:序列描述。
4:堿基序列,序列中允許空格、換行、空行,一般一行60個(gè)。
Fastq文件→Fasta文件
Linux命令
法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2:seqtk seq -A input.fastq > output.fasta
FASTX-Toolkit
?一款用于處理Short-Reads FASTA/FASTQ文件的程序,里面包含了豐富的Fasta/Fastq文件格式轉(zhuǎn)換、統(tǒng)計(jì)等命令。
http://hannonlab.cshl.edu/fastx_toolkit/
GenBank & EMBL
GenBank格式
以LOCUS和一些注釋行開(kāi)始。
序列的開(kāi)頭以“ORIGIN”標(biāo)記,末尾以“//”標(biāo)記。
EMBL格式
以標(biāo)識(shí)符行(ID)開(kāi)頭,后面跟著更多注釋行。
序列的開(kāi)頭以“SQ”開(kāi)頭標(biāo)記,序末尾以“//”標(biāo)記。
**表 1 **GenBank & EMBL數(shù)據(jù)庫(kù)格式的對(duì)比
EMBL → Fasta格式轉(zhuǎn)換(在線工具):
http://www.geneinfinity.org/sms/sms_embltofasta.html
另外給大家介紹一個(gè)常見(jiàn)測(cè)序文件格式解析的網(wǎng)站:
https://genome.ucsc.edu/FAQ/FAQformat.html#format1
該網(wǎng)站包含了各種各樣的測(cè)序文件格式說(shuō)明,想了解文件格式各行各列的含義直接找它即可!