MACS2的使用

一直疑惑MACS2的原理和使用方法,在看了多篇介紹后更是亂的一團(tuán)糟,最后還是看了官方文檔才理清楚。https://github.com/taoliu/MACS/

原理

MACS2的主要功能是 Peak Calling,就是reads富集的正確位置。
其中難理解的就是雙峰模型,如下圖。在單端測序的時候,如果測序較短,這個時候就會形成雙峰,而這雙峰并不是真正的蛋白富集的位置。MACS2是基于模型(泊松分布)的方法進(jìn)行檢峰的,意圖中的模型是雙峰模型,目的是為了將比對上的Reads朝3`端偏移(shift),以更準(zhǔn)確地得到蛋白-DNA互作的位置。更詳細(xì)原理可移步 http://www.itdecent.cn/p/0c272643f88b

問題

這時我們就遇到一個問題了,上面說的是單端測序的時候,可是我們現(xiàn)在大多數(shù)都會使用雙端測序。此工具有個 -f 參數(shù)。

-f/--format FORMAT
Format of tag file, can be "ELAND", "BED", "ELANDMULTI", "ELANDEXPORT", "ELANDMULTIPET" (for pair-end tags), "SAM", "BAM", "BOWTIE", "BAMPE" or "BEDPE". Default is "AUTO" which will allow MACS to decide the format automatically. "AUTO" is also usefule when you combine different formats of files. Note that MACS can't detect "BAMPE" or "BEDPE" format with "AUTO", and you have to implicitly specify the format for "BAMPE" and "BEDPE".

官方說了,此工具可以自動識別大部分輸入文件的格式,但是無法區(qū)分出"BAMPE" 和 "BEDPE",也就是無法識別是否是雙端測序數(shù)據(jù)。我們使用“BAM”參數(shù),即使是雙端測序結(jié)果,軟件也只保留 5' tag的 reads。如果使用參數(shù) "BAMPE" ,將跳過建立雙峰模型,根據(jù)實際的插入大小來構(gòu)建峰。同時參數(shù) --nomodel,--extsize 失效。

特殊參數(shù)含義

  • --extsize : 延長reads 到特定長度,5' >3',用這個的前提是要知道蛋白結(jié)合的DNA的具體長度,例如核糖體蛋白一周環(huán)繞的DNA為173bp,則 --extsize 173 。且只有在--nomodel和--fix-bimodal 生效時使用,而雙端測序數(shù)據(jù)是可以預(yù)測read具體長度的,所以不適用此參數(shù)。
  • --shift: 這個參數(shù)是絕對的偏移值,會先于--extsize前對read進(jìn)行整體移動。

疑惑

如果是nucleosome-seq數(shù)據(jù):因為一個核小體大概有147bp DNA纏繞,于是就需要用半個核小體長度進(jìn)行堆積(pipleup)用于小波分析。參數(shù)為--nomodel --shift 37 --extsize 73.

上面是官方文檔里的描述,認(rèn)為nucleosome-seq數(shù)據(jù)應(yīng)做此處理,我覺得這也是針對單端測序數(shù)據(jù)的,如果正負(fù)鏈reads分別延伸到73bp,則兩峰之間距離約為73bp,也就是d=73,所以shift=d/2=37。不知道這樣理解是否正確。

參考

https://github.com/taoliu/MACS/
http://www.itdecent.cn/p/0c272643f88b
http://www.itdecent.cn/p/6a975f0ea65a

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容