ChromHMM——組蛋白修飾知多少

作者:Jenny
審稿:童蒙
編輯:amethyst

ChromHMM是2012年由來(lái)自麻省理工學(xué)院布羅德研究所和美國(guó)馬薩諸塞州劍橋市哈佛大學(xué)Jason Ernst和Manolis Kellis兩人發(fā)表在Nature雜志上,值得注意的是全文僅一頁(yè)篇幅(一張F(tuán)ig)。但該軟件的強(qiáng)大和實(shí)用讓它這么多年來(lái)一直被生信人員頻繁使用。

一、組蛋白修飾簡(jiǎn)介

在介紹ChromHMM之前,讓我們先簡(jiǎn)單了解下組蛋白修飾。我們知道組蛋白修飾的種類繁多,包括乙?;ˋc)、甲基化(Me)、泛素化(Ub)、類泛素化(Su)和磷酸化(P)。大部分研究的是發(fā)生在H3組蛋白上的乙?;ˋc)和甲基化(Me)。下面表格給大家展示了常見(jiàn)的組蛋白修飾的特點(diǎn)及其與三維基因組結(jié)果的關(guān)系,基本上大家了解以下幾種便可。

二、軟件安裝

ChromHMM軟件是用Java語(yǔ)言編譯的,安裝使用超級(jí)簡(jiǎn)單。首先我們進(jìn)入網(wǎng)站下載ChromHMM software (v1.20)(http://compbio.mit.edu/ChromHMM/ChromHMM.zip)。

unzip ChromHMM.zip
cd ChromHMM
ls -al *
java -mx1600M -jar ChromHMM.jar#測(cè)試能否運(yùn)行

解壓后我們可以查看到有以上文件,按照命令依次運(yùn)行,最后java沒(méi)有報(bào)錯(cuò)也就OK。

三、軟件實(shí)操

運(yùn)行java -mx1600M -jar ChromHMM.jar我們可以看到以下輸出,其實(shí)我們主要是使用BinarizeBam和LearnModel模式,BinarizeBed模式跟BinarizeBam類似,只不過(guò)是用bam轉(zhuǎn)成bed文件作為輸入。小編這里習(xí)慣BinarizeBam模式,其他模式的使用和參數(shù)大家可以去閱讀ChromHMM_manual.pdf,說(shuō)明文檔里都有很詳細(xì)的解釋。

01.數(shù)據(jù)準(zhǔn)備

mkdir data data/bam
建立以上文件目錄,并在data下手動(dòng)生成cellmarkfiletablebams_Input.txt文件。將要用的ChIPseq bam文件都放在data/bam目錄下。以下是文件內(nèi)容。

ls data/bam/
cat data/cellmarkfiletablebams_Input.txt#文件用tab隔開(kāi)

輸出:

H3K4me1.bam、H3K4me3.bam、H3K27ac.bam、H3K9me3、H3K36me3、H3K27me3、Input.bam

02. BinarizeBam模式

1java -mx1600M -jar ChromHMM.jar BinarizeBam -f 2 -t outputsignaldir -paired -b 200 data/chrom.size data/bam/ data/cellmarkfiletablebams_Input.txt Input_FC2

參數(shù)說(shuō)明:
-f 2表示與Input相比的信號(hào)比閾值(-f foldthresh);
-t outputsignaldir是信號(hào)輸出目錄,改參數(shù)可以不設(shè),文件后面不需用到;
-paired 如何是paired-end測(cè)序需要設(shè)置該參數(shù);
-b 是binsize的大小,一般設(shè)置200bp;
data/chrom.size 是基因組染色體大小,2列;

Input_FC2 是輸出的主要目錄結(jié)果,后面要用到,格式如下,該文件也可以自己編程用peaks文件得到,這樣就不用運(yùn)行BinarizeBam模式,其中0表示在沒(méi)有信號(hào),1表示有信號(hào)。

03.LearnModel模式

unset DISPLAY #有時(shí)候會(huì)出現(xiàn)Can't connect to X11 window server保存,該命名可以解決問(wèn)題
java -mx1600M -jar ChromHMM.jar LearnModel -b 200 Input_FC2 Output_FC2_15 15 hg19

Input_FC2:輸入目錄,BinarizeBam模式得到的*_binary.txt,每條染色體一個(gè),一個(gè)binsize一樣;
-b 200:binsize大小,要與Input_FC2文件保持一致;
Output_FC2_15:輸出目錄;
15:染色體狀態(tài)state個(gè)數(shù),可以自己設(shè)置,如果組蛋白修飾種類較少,建議設(shè)置10;
hg19:物種的參考基因組,注意必須要ChromHMM軟件支持的,如果沒(méi)有的話需要自己建注釋庫(kù),詳見(jiàn)4部分。
點(diǎn)擊Output_FC2_15/webpage_15.html,可以直接打開(kāi)網(wǎng)頁(yè)查看結(jié)果。
其中segments.bed為結(jié)果最終文件,而dense.bed可以直接用IGV可視化。
結(jié)果解讀詳見(jiàn)第5部分。

四、其他物種注釋庫(kù)的建立

剛才有提到過(guò),如果涉及到ChromHMM軟件不支持的基因組是不是就不能跑了,這種狀況有辦法解決,只需要在以下三個(gè)文件下手動(dòng)生成自己物種相應(yīng)基因組注釋文件就可以。

cd ChromHMM
ls -al ANCHORFILES CHROMSIZES COORDS

以上為目前軟件下載后支持的物種基因組版本。

假如我們要建立蜜蜂物種Amel_4.5基因組怎么辦?

很簡(jiǎn)單,只需要在以下目錄參考其他物種文件格式生成以下目錄和文件就行,注意格式一定要對(duì)。

備注:

所有文件命名一定要規(guī)范,比如我們已經(jīng)將基因組版本定義為Amel_4.5,那么所有目錄和文件必須要有Amel_4.5字樣,要不然軟件無(wú)法自動(dòng)識(shí)別。

CHROMSIZES(染色體大小文件夾) ANCHORFILES(基因TSS和TES位置文件)必須要有,COORDS文件下的各category數(shù)目和種類都可以自己設(shè)計(jì),缺少某些不影響軟件的運(yùn)行,category越多越全,對(duì)結(jié)果解讀的幫助越大。建議都用bed3的格式。

五、結(jié)果解讀

cd ChromHMM
java -mx1600M -jar ChromHMM.jar -b 200 LearnModel SAMPLEDATA_HG18 OUTPUTSAMPLE 10 hg18

前面說(shuō)了這么多,其實(shí)如果要看軟件結(jié)果可以直接用ChromHMM給的測(cè)試數(shù)據(jù)AMPLEDATA_HG18(已生成*binary.txt.gz文件),按照以上命名得到輸出目錄OUTPUTSAMPLE。打開(kāi)OUTPUTSAMPLE/webpage_10.html就可以查看結(jié)果。

結(jié)題報(bào)告包括運(yùn)行命名參數(shù)和主要的結(jié)果圖展示,其中Emission Parameter 文件是最主要的結(jié)果圖,表示定義的10種state與各組蛋白修飾,CTCF的關(guān)系,其中顏色越深,代表該state與該ChIPseq數(shù)據(jù)越相關(guān)。染色體狀態(tài)State的命名可以結(jié)合以上圖的結(jié)果綜合考慮。

此外:OUTPUTSAMPLE/GM12878_10_segments.bed是全基因組state的位置信息文件。

OUTPUTSAMPLE/GM12878_10_dense.bed可以直接用IGV可視化。

最后有關(guān)ChromHMM軟件的應(yīng)用及其State命名大家可以去閱讀這篇文獻(xiàn):Integrative analysis of 111 reference human epigenomes. Nature 518, 317–330 (2015),該文章定義了人111種常見(jiàn)細(xì)胞或者正常組織的ChromHMM state結(jié)果。數(shù)據(jù)下載鏈接https://egg2.wustl.edu/roadmap/web_portal/chr_state_learning.html#core_15state

六、參考文獻(xiàn)

1、Ernst J, Kellis M. ChromHMM: automating chromatin-state discovery and characterization. Nature Methods, 9:215-216, 2012.
2、http://compbio.mit.edu/ChromHMM/
3、Kundaje, A., Meuleman, W., Ernst, J. et al. Integrative analysis of 111 reference human epigenomes. Nature 518, 317–330 (2015). https://doi.org/10.1038/nature14248

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容