今天在Biostar上看到了這個關(guān)于
samtools bedcovvs.bedtools coverage問題的討論(https://www.biostars.org/p/195497/),感覺值得分享。
問題
po主用bedtools和samtools兩個工具對一個BAM的特定基因區(qū)域的覆蓋深度進行統(tǒng)計,卻得到了不同的結(jié)果,特來論壇求助。
他使用的命令行如下:
bedtools coverage -a exons.bed -b bam -d -counts
samtools bedcov gene.bed sample.bam
bedtools得到的結(jié)果如下:
chr1 69091 70008 "OR4F5" 61 #from bedtools coverage
samtools得到的結(jié)果如下:
chr1 69091 70008 "OR4F5" 4714 #from samtools bedcov
可以看出bedtools給出的覆蓋深度是61,samtools給出的覆蓋深度是4714,兩個之間的差距還是很大的,這其中的原因是什么?
解惑
其實原因很簡單,bedtools coverage給出的統(tǒng)計量是目標區(qū)域的平均深度。而samtools bedcov給出的統(tǒng)計量是指bed區(qū)域內(nèi)每個堿基深度的加和,如果想要得到實際的平均深度,需要除以bed區(qū)域的長度。
最后值得注意的是,samtools bedcov 會忽略標記為duplicates, QC fail等的reads,但bedtools coverage不會.