Fastq文件格式解析

Fastq是測序數(shù)據(jù)下機格式,其中包含測序序列(reads)的序列信息及其對應(yīng)的測序質(zhì)量信息。
FASTQ格式文件中每個read由四行描述,如下:

@EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG 
GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT 
+ 
@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF

其中第一行以“@”開頭,隨后為Illumina 測序標識符(Sequence Identifiers)和描述文字(選擇性部分);第二行是堿基序列;第三行以“+”開頭,隨后為Illumina 測序標識符(選擇性部分);第四行是對應(yīng)序列的測序質(zhì)量。
Illumina 測序標識符詳細信息如下:

image.png

第四行中每個字符對應(yīng)的ASCII值減去33,即為對應(yīng)第二行堿基的測序質(zhì)量值。如果測序錯誤率用e表示,Illumina測序平臺的堿基質(zhì)量值用Qphred表示,則有下列關(guān)系:
ASCII - 33 = Qphred = -10log10(e)
此公式可說明,質(zhì)量值越大測序錯誤率(e)越低,準確性越高

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容