關(guān)于測(cè)序數(shù)據(jù)大小的問(wèn)題

基本概念
我們一般說(shuō)的測(cè)序數(shù)據(jù),比方說(shuō) 6G 的測(cè)序數(shù)據(jù),這個(gè)G代表的是 Gbase,而非文件大小 GB(gigabyte)
Gbase 代表的是堿基數(shù)量,即測(cè)序文件(A,T,C,G)的個(gè)數(shù),相鄰兩個(gè)單位換算為 1000

而我們所說(shuō)的文件大小 GB(gigabyte)是計(jì)算基領(lǐng)域統(tǒng)計(jì)某個(gè)文件大小的計(jì)量單位,相鄰兩個(gè)單位換算為 1024

如何估算fastq文件的的堿基數(shù)
一般我們測(cè)序數(shù)據(jù)有兩種情況,一種是雙端數(shù)據(jù)(雙端各有150bp),另外一種是單端數(shù)據(jù)(一端300bp)
那么對(duì)于單端數(shù)據(jù),我們可以先統(tǒng)計(jì)具有reads的行數(shù)有多少行,那么每一個(gè)reads行有300個(gè)堿基,那么總堿基數(shù)為:
總堿基數(shù)(GB) = (總reads的行數(shù) × 300) / 10的9次方

如果是雙端數(shù)據(jù):
總堿基數(shù) = (總reads的行數(shù) × 2 × 150) / 10的9次方

如果想看實(shí)際比對(duì)下來(lái)的總堿基數(shù),記得乘上比對(duì)率:
單端:總堿基數(shù)(GB) = (總reads的行數(shù) × 300 × 比對(duì)率) / 10的9次方
雙端:總堿基數(shù)(GB) = (總reads的行數(shù) × 2 × 150 × 比對(duì)率) / 10的9次方

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容