??Motif經(jīng)常出現(xiàn)在表觀組學(xué)文章中,在ChIP-seq數(shù)據(jù)分析中占有一席之地,尤其是轉(zhuǎn)錄因子。Motif中文翻譯為“基序”,本質(zhì)是一個(gè)基于數(shù)據(jù)的數(shù)學(xué)統(tǒng)計(jì)模型,用來描述一類特征序列集合 (如分析轉(zhuǎn)錄因子的潛在結(jié)合位點(diǎn)) 的堿基頻率特點(diǎn)。所以,通過Motif可以明確兩點(diǎn)信息:Motif指代一群序列,一般認(rèn)為這些序列擁有生物學(xué)功能的保守性,即潛在的特異性結(jié)合位點(diǎn)或者涉及特定生物學(xué)過程的共性序列,并且描繪了這群序列的堿基頻率特征。Motif分析包含三個(gè)應(yīng)用方向:Motif Enrichment、Motif Scanning、Motif Discovery。

Motif Enrichment
??通過富集分析可以知道哪些Motif的序列在ChIP-seq數(shù)據(jù)中富集。一個(gè)已知的轉(zhuǎn)錄因子ChIP-seq實(shí)驗(yàn)可以用相應(yīng)的Motif來驗(yàn)證數(shù)據(jù)是否合理。目前,已知的轉(zhuǎn)錄因子都有相應(yīng)的Motif被收錄在各個(gè)數(shù)據(jù)庫,如JASPAR。Motif具有保守性,也就是說在相同條件下的不同數(shù)據(jù)集里具有相同的特征,這也是可以用來驗(yàn)證的前提。比如,人基因SPI1是一個(gè)轉(zhuǎn)錄因子,ChIP-seq數(shù)據(jù)呈現(xiàn)的Motif如下圖:

??一般會(huì)得到很多富集的Motif,此時(shí)要留意結(jié)果中是否有該轉(zhuǎn)錄因子對(duì)應(yīng)的Motif,比如做了人SPI1的ChIP-seq,那富集結(jié)果中至少得有上圖所示的Motif,由此可以判斷實(shí)驗(yàn)的有效性。不然,雖然數(shù)據(jù)有信號(hào),也不能說明結(jié)果的正確性,畢竟影響ChIP-seq實(shí)驗(yàn)的因素有很多,如抗體的結(jié)合情況、特異性等。下面是使用homer2做已知motif富集的示例代碼:
findMotifsGenome.pl spi1_peaks.narrowPeak hg38 spi1_motif -nomotif -p 6
??homer2軟件內(nèi)置了很多已知Motif的數(shù)據(jù),-nomotif參數(shù)可以用來控制不做de novo motif富集,可以節(jié)約時(shí)間。結(jié)果文件夾里面會(huì)生成相應(yīng)的結(jié)果及網(wǎng)頁報(bào)告。
Motif Scanning
??通過該分析可以得到Motif的序列出現(xiàn)在ChIP-seq數(shù)據(jù)中的哪些peak里面??捎糜谶^濾數(shù)據(jù),含有Motif序列的peak更有可能是潛在的結(jié)合位點(diǎn),從而發(fā)現(xiàn)調(diào)控的靶基因。homer2做已知motif掃描的示例代碼:
head pu1.motif
>AGAGGAAGTG PU.1(ETS)/ThioMac-PU.1-ChIP-Seq(GSE21512)/Homer 7.613173 -1.947446e+04 0 58623.0,41203.0,17624.1,16914.0,0.00e+00
0.643 0.001 0.149 0.207
0.122 0.171 0.706 0.002
0.830 0.012 0.157 0.001
0.001 0.001 0.997 0.001
0.001 0.001 0.997 0.001
0.997 0.001 0.001 0.001
0.990 0.001 0.001 0.008
0.024 0.074 0.900 0.001
0.001 0.005 0.001 0.993
mkdir spi1_motif
findMotifsGenome.pl spi1_peaks.narrowPeak hg38 spi1_motif -p 6 -find pu1.motif >spi1_motif/spi1.seq.txt
??-find參數(shù)指定需要掃描的Motif,尋找到Motif序列出現(xiàn)在的具體peak位置。
Motif Discovery
??通過該分析可以得到ChIP-seq數(shù)據(jù)中peak里面的de novo motif,尋找轉(zhuǎn)錄因子peak中新的特征。homer2做已知Motif Discovery富集的示例代碼:
findMotifsGenome.pl macs2/spi1_peaks.narrowPeak hg38 spi1_motif -noknown -p 6
??組裝新的Motif過程中,有很多參數(shù)可以影響最終的結(jié)果,需要的話可以根據(jù)軟件的幫助信息修改相應(yīng)的值,不知道參數(shù)的作用時(shí)用默認(rèn)值就好。
??Motif與轉(zhuǎn)錄因子并不是簡(jiǎn)單的一對(duì)一關(guān)系,也就是說一個(gè)轉(zhuǎn)錄因子可能會(huì)對(duì)應(yīng)多個(gè)Motif,而一個(gè)Motif也可能對(duì)應(yīng)多個(gè)轉(zhuǎn)錄因子。