(避坑)samtools bedcov 和 bedtools coverage 的區(qū)別

今天在Biostar上看到了這個關(guān)于samtools bedcov vs. bedtools coverage 問題的討論(https://www.biostars.org/p/195497/),感覺值得分享。

問題

po主用bedtoolssamtools兩個工具對一個BAM的特定基因區(qū)域的覆蓋深度進行統(tǒng)計,卻得到了不同的結(jié)果,特來論壇求助。
他使用的命令行如下:
bedtools coverage -a exons.bed -b bam -d -counts
samtools bedcov gene.bed sample.bam

bedtools得到的結(jié)果如下:

chr1    69091   70008   "OR4F5" 61 #from bedtools coverage

samtools得到的結(jié)果如下:

chr1    69091   70008   "OR4F5" 4714  #from  samtools bedcov

可以看出bedtools給出的覆蓋深度是61,samtools給出的覆蓋深度是4714,兩個之間的差距還是很大的,這其中的原因是什么?

解惑

其實原因很簡單,bedtools coverage給出的統(tǒng)計量是目標區(qū)域的平均深度。而samtools bedcov給出的統(tǒng)計量是指bed區(qū)域內(nèi)每個堿基深度的加和,如果想要得到實際的平均深度,需要除以bed區(qū)域的長度。
最后值得注意的是,samtools bedcov 會忽略標記為duplicates, QC fail等的reads,但bedtools coverage不會.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容