Fastq是測序數(shù)據(jù)下機格式,其中包含測序序列(reads)的序列信息及其對應(yīng)的測序質(zhì)量信息。
FASTQ格式文件中每個read由四行描述,如下:
@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG
GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT
+
@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF
其中第一行以“@”開頭,隨后為Illumina 測序標識符(Sequence Identifiers)和描述文字(選擇性部分);第二行是堿基序列;第三行以“+”開頭,隨后為Illumina 測序標識符(選擇性部分);第四行是對應(yīng)序列的測序質(zhì)量。
Illumina 測序標識符詳細信息如下:

image.png
第四行中每個字符對應(yīng)的ASCII值減去33,即為對應(yīng)第二行堿基的測序質(zhì)量值。如果測序錯誤率用e表示,Illumina測序平臺的堿基質(zhì)量值用Qphred表示,則有下列關(guān)系:
ASCII - 33 = Qphred = -10log10(e)
此公式可說明,質(zhì)量值越大測序錯誤率(e)越低,準確性越高