原先一直以為測(cè)序的bp和byte是等價(jià)的,原來(lái)對(duì)fastq來(lái)說(shuō),其實(shí):
利用
(公式要怎么換行???)
舉例:
如果測(cè)序reads總量4,000,000,average read length為150bp,基因組大小是50M,估算基因組coverage/depth大?。?/p>
應(yīng)該是,
總長(zhǎng) 4,000,000x150 bp=600,000,000 bp /4=150,000,000 BT=150M
但其實(shí)fastq格式儲(chǔ)存的數(shù)據(jù)大小要比實(shí)際的數(shù)據(jù)量虛高一些,所以實(shí)際的fastq文件要大。
coverage=測(cè)序數(shù)據(jù)大小150M/基因組大小50M = 3
結(jié)語(yǔ):
熟知單位換算對(duì)預(yù)測(cè)測(cè)序結(jié)果提前估量有一定的幫助,當(dāng)測(cè)序結(jié)果未達(dá)到要求時(shí),可以合理要求測(cè)序公司對(duì)不符合的樣本重新上機(jī)測(cè)序。有關(guān)問(wèn)題歡迎一起來(lái)探討啊
參考:
Base vs Byte: Estimating the storage requirement of sequencing - SEQOME