基本概念
我們一般說(shuō)的測(cè)序數(shù)據(jù),比方說(shuō) 6G 的測(cè)序數(shù)據(jù),這個(gè)G代表的是 Gbase,而非文件大小 GB(gigabyte)
Gbase 代表的是堿基數(shù)量,即測(cè)序文件(A,T,C,G)的個(gè)數(shù),相鄰兩個(gè)單位換算為 1000
而我們所說(shuō)的文件大小 GB(gigabyte)是計(jì)算基領(lǐng)域統(tǒng)計(jì)某個(gè)文件大小的計(jì)量單位,相鄰兩個(gè)單位換算為 1024
如何估算fastq文件的的堿基數(shù)
一般我們測(cè)序數(shù)據(jù)有兩種情況,一種是雙端數(shù)據(jù)(雙端各有150bp),另外一種是單端數(shù)據(jù)(一端300bp)
那么對(duì)于單端數(shù)據(jù),我們可以先統(tǒng)計(jì)具有reads的行數(shù)有多少行,那么每一個(gè)reads行有300個(gè)堿基,那么總堿基數(shù)為:
總堿基數(shù)(GB) = (總reads的行數(shù) × 300) / 10的9次方
如果是雙端數(shù)據(jù):
總堿基數(shù) = (總reads的行數(shù) × 2 × 150) / 10的9次方
如果想看實(shí)際比對(duì)下來(lái)的總堿基數(shù),記得乘上比對(duì)率:
單端:總堿基數(shù)(GB) = (總reads的行數(shù) × 300 × 比對(duì)率) / 10的9次方
雙端:總堿基數(shù)(GB) = (總reads的行數(shù) × 2 × 150 × 比對(duì)率) / 10的9次方