fastq格式,如何快速計(jì)算fasta, fastq的reads數(shù)?

FASTQ

fastq格式是一種基于文本的存儲(chǔ)生物序列和對(duì)應(yīng)堿基或者氨基酸質(zhì)量的文件格式,最初由桑格研究所(Wellcome Trust Sanger Institute)開發(fā)出來,現(xiàn)已成為存儲(chǔ)高通量測(cè)序數(shù)據(jù)的事實(shí)標(biāo)準(zhǔn)。
舉個(gè)例子:

head SRR4407795_1.fastq  #查看前 10 行

我們可以看到每一個(gè)序列有四行

@SRR4407794.1 1 length=86
CCTGGCTTATTGCAGTTGTAACAAGATGGTTCGTCGGGACTCTGAGGGCAATCTTTGGCAAAGTGCCCTTCGCCATTACAGCGATA
+SRR4407794.1 1 length=86
FFFFFIIIIIIIIIIFFBFFIIBFF<FFBFFFF<FFFFFFFBBFBBFBBFBFFFFFBBBB<BB<BBBFBBBBFFFBBBBBFFFBBB
@SRR4407794.2 2 length=86
ATTTAAAATTAAAATATTAGATTTTATATTCACAAATCAATGATTTAAATTAAAAAAGTTTATTAAATAGATCGGAAGAGCACACG
+SRR4407794.2 2 length=86
BFFFBFIFIIBBFFFFFIFIIIIIIIIFIIFFFBFFI<<BFF<FFIIIFIIIFBFIII<BFBFFBBBFFFFFFFFBFFFFFFFBB<
...

第一行:必須以"@"開頭,后面跟著序列的id信息,以及描述(測(cè)序通道,坐標(biāo),reads長(zhǎng)度等)
第二行:序列
第三行:必須以"+"開頭,后面跟著可選的ID標(biāo)識(shí)符和可選的描述內(nèi)容,但是內(nèi)容必須和第一行保持一致
第四行:質(zhì)量分?jǐn)?shù),對(duì)應(yīng)到該測(cè)序儀器所采用的phred標(biāo)準(zhǔn),對(duì)應(yīng)ascall碼范圍求得整數(shù)質(zhì)量分?jǐn)?shù)值.

FASTA

fasta格式比較常見,用于表示核苷酸序列或氨基酸序列。

>QE2142515.1 CO1_species
MLLNKWFYSHKNIGTLYFIFGAGMLGTSFSLLIRAELGSPGSLIGNDHIFNVIVTSHAFIFFMVMPIMIGGFGNWLI

第一行:必須以">"開頭,后面接序列的id信息,然后是描述部分
第二行:序列信息,可以是核酸或者是氨基酸序列

如何計(jì)算fasta,fastq的序列條數(shù)

根據(jù)以上的描述,我們知道知道fastq條數(shù)就是總行數(shù)/4,fasta條數(shù)就是數(shù)">"的個(gè)數(shù)

  • fastq
expr $(cat test.fastq | wc -l) / 4
  • fasta
grep ">" test.fasta | wc -l
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容