FASTQ
fastq格式是一種基于文本的存儲(chǔ)生物序列和對(duì)應(yīng)堿基或者氨基酸質(zhì)量的文件格式,最初由桑格研究所(Wellcome Trust Sanger Institute)開發(fā)出來,現(xiàn)已成為存儲(chǔ)高通量測(cè)序數(shù)據(jù)的事實(shí)標(biāo)準(zhǔn)。
舉個(gè)例子:
head SRR4407795_1.fastq #查看前 10 行
我們可以看到每一個(gè)序列有四行
@SRR4407794.1 1 length=86
CCTGGCTTATTGCAGTTGTAACAAGATGGTTCGTCGGGACTCTGAGGGCAATCTTTGGCAAAGTGCCCTTCGCCATTACAGCGATA
+SRR4407794.1 1 length=86
FFFFFIIIIIIIIIIFFBFFIIBFF<FFBFFFF<FFFFFFFBBFBBFBBFBFFFFFBBBB<BB<BBBFBBBBFFFBBBBBFFFBBB
@SRR4407794.2 2 length=86
ATTTAAAATTAAAATATTAGATTTTATATTCACAAATCAATGATTTAAATTAAAAAAGTTTATTAAATAGATCGGAAGAGCACACG
+SRR4407794.2 2 length=86
BFFFBFIFIIBBFFFFFIFIIIIIIIIFIIFFFBFFI<<BFF<FFIIIFIIIFBFIII<BFBFFBBBFFFFFFFFBFFFFFFFBB<
...
第一行:必須以"@"開頭,后面跟著序列的id信息,以及描述(測(cè)序通道,坐標(biāo),reads長(zhǎng)度等)
第二行:序列
第三行:必須以"+"開頭,后面跟著可選的ID標(biāo)識(shí)符和可選的描述內(nèi)容,但是內(nèi)容必須和第一行保持一致
第四行:質(zhì)量分?jǐn)?shù),對(duì)應(yīng)到該測(cè)序儀器所采用的phred標(biāo)準(zhǔn),對(duì)應(yīng)ascall碼范圍求得整數(shù)質(zhì)量分?jǐn)?shù)值.
FASTA
fasta格式比較常見,用于表示核苷酸序列或氨基酸序列。
>QE2142515.1 CO1_species
MLLNKWFYSHKNIGTLYFIFGAGMLGTSFSLLIRAELGSPGSLIGNDHIFNVIVTSHAFIFFMVMPIMIGGFGNWLI
第一行:必須以">"開頭,后面接序列的id信息,然后是描述部分
第二行:序列信息,可以是核酸或者是氨基酸序列
如何計(jì)算fasta,fastq的序列條數(shù)
根據(jù)以上的描述,我們知道知道fastq條數(shù)就是總行數(shù)/4,fasta條數(shù)就是數(shù)">"的個(gè)數(shù)
- fastq
expr $(cat test.fastq | wc -l) / 4
- fasta
grep ">" test.fasta | wc -l