利用HOMER預(yù)測(cè)目標(biāo)序列的motif(從運(yùn)行程序到結(jié)果解讀,以及注意事項(xiàng))

關(guān)于查找motif,目前有很多種軟件可以進(jìn)行預(yù)測(cè)。我所在的實(shí)驗(yàn)室通常使用FIMO(MEME套件里的一個(gè)),但是有很多文獻(xiàn)里也提到了HOMER這個(gè)軟件,并且不乏一些影響因子很高的paper,所以感覺有必要學(xué)習(xí)一下這個(gè)軟件。這個(gè)官網(wǎng)的信息很多,寫的也很詳細(xì),但是感覺思維比較混亂,所以這篇學(xué)習(xí)筆記是我自己整理的官網(wǎng)信息,順序和官網(wǎng)不一樣,有興趣的同學(xué)可以直接去官網(wǎng)學(xué)習(xí):homer官方網(wǎng)站:http://homer.ucsd.edu/homer/motif/
HOMER有很多功能,這里我只集中學(xué)習(xí)用HOMER查找motif。

(一)HOMER是什么?

HOMER(Motif富集的超幾何優(yōu)化)是一套用于Motif發(fā)現(xiàn)和ChIP-Seq分析的工具。它是一個(gè)命令行程序的集合,用于unix操作系統(tǒng),主要用perl和c++編寫。HOMER最初是作為一個(gè)從頭(de novo)motif發(fā)現(xiàn)算法編寫的,非常適合在大規(guī)?;蚪M數(shù)據(jù)中發(fā)現(xiàn)8-12 bp的motif。

硬件要求(括號(hào)里是推薦的要求): 2+ Gb 內(nèi)存 (4-8+ Gb), 10+ Gb 硬盤空間 (50+ Gb)
軟件要求:Unix compatible OS (or cygwin), perl, gcc, make, wget, ghostscript, weblogo, blat

HOMER包含了一個(gè)新穎的motif發(fā)現(xiàn)算法,設(shè)計(jì)用于在基因組學(xué)應(yīng)用里的調(diào)控元件分析(這里的元件指DNA,而非蛋白質(zhì))。這是一種不同的motif發(fā)現(xiàn)算法,這意味著它采取兩套序列,并試圖識(shí)別在其中一套序列上相對(duì)于另一套的特定富集的調(diào)控元件(比如說我們的peaks序列相對(duì)于整個(gè)基因組序列)。它使用ZOOPS評(píng)分(0或1發(fā)生在每條序列上)與超幾何富集計(jì)算(或二項(xiàng)式)來確定motif富集。HOMER也盡力考慮數(shù)據(jù)集里的排序偏差。它的設(shè)計(jì)用于ChIP-Seq和啟動(dòng)子分析,但可以應(yīng)用于幾乎任何核酸序列的motif發(fā)現(xiàn)。

(二)HOMER的安裝

安裝homer(下面的安裝方法來自:生信技能樹視頻chipseq 17 使用homer找motif)因?yàn)槲沂褂玫氖欠?wù)器上已經(jīng)安裝好的軟件,所以這一步需要大家自己摸索一下~:

#install homer
conda install -c bioconda homer

下載configureHomoer.pl:here,并把這個(gè)文件放在一個(gè)單獨(dú)的文件夾里,比如我用的就是名為homer的文件夾。

(三)HOMER基因組準(zhǔn)備

HOMER使用的基因組和我們平時(shí)用的基因組不一樣,要預(yù)處理一下的,可以直接下載你需要的信息,比如:

#這里我需要hg38的基因組
#同樣下載到homer文件夾里
$ perl ./homer/configureHomer.pl -install hg38

HOMER支持的基因組有:
Human (hg18, hg19, hg38), Mouse (mm8, mm9, mm10), Rat (rn4, rn5, rn6), Frog (xenTro2, xenTro3), Zebrafish (danRer7), Drosophila (dm3), C elegans (ce6, ce10), S. cerevisiae (sacCer2, sacCer3), pombe (ASM294v1), Arabidopsis (tair10), Rice (msu6), 你也可以使用自己定義的基因組fasta格式和GTF格式的文件。

下載基因組后,homer文件夾里會(huì)多出來一個(gè)子文件夾,叫“data”,里面有:

$ ll
total 24
drwx------ 2 fangy04 fangy04 8192 Dec 10 14:08 GO
drwx------ 2 fangy04 fangy04 8192 Dec 10 14:08 accession
drwx------ 3 fangy04 fangy04 8192 Dec 10 14:09 genomes

其中,genomes文件夾里會(huì)有一個(gè)hg38的子文件夾,是我剛才下載的基因組文件,在hg38文件夾里有這些文件:

$ ll
total 4539344
drwxr-xr-x 5 fangy04 fangy04       8192 Oct 19  2019 annotations
-rw-r--r-- 1 fangy04 fangy04      11672 Oct 19  2019 chrom.sizes
-rw-r--r-- 1 fangy04 fangy04 3273481150 Jan 16  2014 genome.fa 
-rw-r--r-- 1 fangy04 fangy04    3270764 Oct 19  2019 hg38.aug
-rw-r--r-- 1 fangy04 fangy04   43703292 Oct 19  2019 hg38.basic.annotation
-rw-r--r-- 1 fangy04 fangy04  705525298 Oct 19  2019 hg38.full.annotation
-rw-r--r-- 1 fangy04 fangy04     164707 Oct 19  2019 hg38.miRNA
-rw-r--r-- 1 fangy04 fangy04  528510489 Oct 19  2019 hg38.repeats
-rw-r--r-- 1 fangy04 fangy04   24471159 Oct 19  2019 hg38.rna
-rw-r--r-- 1 fangy04 fangy04   29505106 Oct 19  2019 hg38.splice3p
-rw-r--r-- 1 fangy04 fangy04   29473833 Oct 19  2019 hg38.splice5p
-rw-r--r-- 1 fangy04 fangy04    3270627 Oct 19  2019 hg38.stop
-rw-r--r-- 1 fangy04 fangy04    3270740 Oct 19  2019 hg38.tss
-rw-r--r-- 1 fangy04 fangy04    3270352 Oct 19  2019 hg38.tts
drwxrwxr-x 2 fangy04 fangy04       8192 Dec 10 14:53 preparsed

*.fa or *.fa.masked是unmasked/masked基因組文件
genome.tss (參考基因轉(zhuǎn)錄起始位點(diǎn)的位置)
genome.tts (參考基因轉(zhuǎn)錄終止位點(diǎn)的位置)
genome.splice3p (參考基因3'剪切位點(diǎn)的位置)
genome.splice5p (參考基因5'剪切位點(diǎn)的位置)
genome.aug (參考基因翻譯起始密碼子的位置)
genome.stop (參考基因翻譯終止密碼子的位置)
genome.rna (refseq RNA definition file)
genome.repeats.rna (repeat RNA definition file)
genome.basic.annotation (exon/intron/TSS/TTS/intergenic區(qū)域注釋)
genome.full.annotation (CpG島和重復(fù)區(qū)域注釋)
annotation/ subdirectory (包含GO的注釋文件)

(四)準(zhǔn)備HOMER輸入文件

可以使用HOMER peak files文件或者任何BED文件。
HOMER的peak文件應(yīng)該是最少5列的(用TAB分隔):
第一列: Unique Peak ID(peak的ID)
第二列: chromosome(染色體)
第三列: starting position(起始位置)
第四列: ending position(結(jié)束位置)
第五列: Strand (+/- or 0/1, where 0="+", 1="-")(鏈)

那么問題來了:How many sequences can HOMER handle?
從理論上講,可以很多(即數(shù)百萬)。該算法被設(shè)計(jì)用于10k條目標(biāo)序列和50k背景序列。如果你使用大量的序列來運(yùn)行findMotifs.pl時(shí),你可能希望使用-b參數(shù),該參數(shù)切換到cumulative binomial distribution進(jìn)行motif評(píng)分,這可以使它更快地計(jì)算,并在使用大量序列時(shí)給出基本相同的結(jié)果。在findMotifsGenome.pl中默認(rèn)使用二項(xiàng)式。

(五)Finding motifs

在某些情況下,用戶可能要考慮什么情況下用哪一個(gè)工具,所以HOMER提供了以下選項(xiàng):

啟動(dòng)子:使用findMotifs.pl分析啟動(dòng)子(這個(gè)功能不是本文探討的主要內(nèi)容,請(qǐng)參考官網(wǎng):這里),如果你希望使用一組特定的啟動(dòng)子作為背景,請(qǐng)將它們放在一個(gè)文本文件中(第一列是ID),并使用-bg <background IDs file>參數(shù)。在目標(biāo)和背景中發(fā)現(xiàn)的基因?qū)⒈粡谋尘爸幸瞥?,這樣它們就不會(huì)相互抵消。

基因組區(qū):比如說enhancers,或其他調(diào)控元件。當(dāng)分析峰/區(qū)域,使用findMotifsGenome.pl,你可以指定適當(dāng)?shù)谋尘皡^(qū)域的基因組區(qū)域,通過將它們放置在它們自己的峰文件中,并使用-bg <background peak file>。例子:當(dāng)嘗試尋找特定于某一細(xì)胞類型特定峰的motif時(shí),指定兩種細(xì)胞類型的共同峰作為背景——這將有助于消除主要motif,并揭示共富集motif。如果峰在外顯子附近,指定外顯子上的區(qū)域作為背景,以消除triplet偏倚。

這里我的BED峰文件是來自ATAC-seq的峰,且不在啟動(dòng)子區(qū)域,所以應(yīng)該使用findMotifsGenome.pl。代碼非常簡(jiǎn)單,就一行,但是建議在運(yùn)行前先看一下下面的參數(shù)介紹部分,因?yàn)楦鶕?jù)你的實(shí)驗(yàn)分析需要,可能要更改參數(shù)設(shè)置,這里我只用了默認(rèn)值,只作為練習(xí):

# finding motif
# 基本格式
# findMotifsGenome.pl <peak/BED file> <genome> <output directory> -size # [options]
$ findMotifsGenome.pl /gpfs/home/fangy04/peaks.bed /gpfs/home/fangy04/homer/data/genomes/hg38 /gpfs/home/fangy04/pks_MotifOutput_2/ -size 200

(六)findMotifsGenome.pl的一些重要參數(shù)

(1)Masked vs. Unmasked Genome (-mask or hg18 vs. hg18r)
實(shí)際上,這通常并不重要。由于HOMER是一種差異motif發(fā)現(xiàn)算法,重復(fù)序列通常在目標(biāo)序列和背景序列很常見。然而,一個(gè)轉(zhuǎn)錄因子與某一類重復(fù)序列結(jié)合的情況并不少見,這可能導(dǎo)致處理幾個(gè)大范圍的相似序列,導(dǎo)致結(jié)果偏倚的原因。通常使用masked會(huì)更安全。

(2)Region Size (-size <#>, -size <#>,<#>, -size given, 默認(rèn): 200,這個(gè)參數(shù)是必須輸入的)
用于尋找motif的區(qū)域的大小是重要的。如果從一個(gè)轉(zhuǎn)錄因子中分析ChIP-Seq峰,推薦用50 bp建立一個(gè)給定轉(zhuǎn)錄因子結(jié)合的主motif,200 bp用于尋找一個(gè)轉(zhuǎn)錄因子的主motif和“共富集”motif。對(duì)于組蛋白標(biāo)記區(qū)域,500-1000 bp可能更合適(即H3K4me或H3/H4乙?;瘏^(qū)域)。理論上,HOMER可以處理非常大的區(qū)域(即10kb),但是區(qū)域越大,序列就越多,執(zhí)行時(shí)間也就越長(zhǎng)。這些區(qū)域?qū)⒁苑宓闹行臑榛A(chǔ)。如果你更愿意用偏移量,可以指定-size -300,100來搜索大小為400的區(qū)域,該區(qū)域位于峰中心上游100 bp(如果在假定的TSS區(qū)域進(jìn)行motif查找,這是很有用的)。如果你的區(qū)域長(zhǎng)度不一定,使用-size given選項(xiàng)HOMER將使用準(zhǔn)確的區(qū)域作為input。

(3)Motif length (-len <#>-len <#>,<#>,..., default: 8,10,12)
指定要找到的motif長(zhǎng)度。HOMER會(huì)分別找到每個(gè)motif大小的結(jié)果,然后在最后把結(jié)果結(jié)合起來。隨著長(zhǎng)度的增加,尋找motif所需的時(shí)間也大大增加。一般來說,在嘗試更長(zhǎng)的長(zhǎng)度之前,最好先嘗試短的motif(即小于15)。HOMER也可以找到更長(zhǎng)的motif,但最好使用較小的數(shù)據(jù)集來找長(zhǎng)motif,否則可能會(huì)花費(fèi)太長(zhǎng)時(shí)間(或占用太多內(nèi)存)。減少總資源消耗的另一個(gè)技巧是減少背景序列的數(shù)量(-N <#>)。

(4)Mismatches allowed in global optimization phase (-mis <#>, default: 2)
HOMER尋找有可能的候選motif時(shí),首先檢查原始o(jì)ligos富集,允許錯(cuò)配。你允許的錯(cuò)配越多,算法就越敏感,特別是對(duì)于較長(zhǎng)的motif。然而,這也會(huì)降低算法的速度。如果搜索長(zhǎng)度超過12-15 bp的motif,最好將這個(gè)值增加到至少3甚至4。

(5)Number of CPUs to use (-p <#>, default: 1)
HOMER現(xiàn)在是多核兼容的。它不是完全并行的。一般來說,motif的長(zhǎng)度越長(zhǎng),加速的效果越好。

(6)Number of motifs to find (-S <#>, default: 25)
指定要查找的每個(gè)長(zhǎng)度的motifs的數(shù)量。25已經(jīng)足夠多了。建議減少這個(gè)數(shù)量,特別是對(duì)于長(zhǎng)motif,以減少總執(zhí)行時(shí)間。

(7)Normalize CpG% content instead of GC% content ("-cpg")
如果HOMER在尋找類似“CGCGCGCG”的motif時(shí)卡住了,你可以嘗試禁用GC/CpG 標(biāo)準(zhǔn)化(-noweight)。

(8)Region level autonormalization (-nlen <#>, default 3, -nlen 0 是禁用)
(9)Motif level autonormalization (-olen <#>, default 0 ,你還可以disabled)
自動(dòng)標(biāo)準(zhǔn)化試圖消除低排序核苷酸的序列偏倚。(1-mers, 2-mers…< # >)。區(qū)域水平自動(dòng)標(biāo)準(zhǔn)化(默認(rèn)為1/2/3 mers)嘗試通過調(diào)整背景區(qū)域的權(quán)重對(duì)其進(jìn)行標(biāo)準(zhǔn)化。如果這不能完成任務(wù)(自動(dòng)標(biāo)準(zhǔn)化不能保證消除所有序列偏差),你可以嘗試motif水平的自動(dòng)標(biāo)準(zhǔn)化(-olen <#>)。在發(fā)現(xiàn)新motif時(shí),在oligo表上執(zhí)行自動(dòng)標(biāo)準(zhǔn)化程序。

(10)User defined background regions (-bg <peak file of background regions>)
你可以自己選擇背景區(qū)域!!這非常有用,因?yàn)楹神R是一個(gè)差異motif發(fā)現(xiàn)算法。例如,你可以給HOMER一組peaks(由另一個(gè)因子共同結(jié)合的峰),并將它們與其他峰進(jìn)行比較(比較特定一種細(xì)胞類型的ChIP-Seq峰與特定于另一種細(xì)胞類型的峰)。為了實(shí)現(xiàn)這一功能,你要準(zhǔn)備第二個(gè)peak/BED文件,并使用參數(shù)-bg。HOMER會(huì)使用mergePeaks自動(dòng)檢查背景峰是否與目標(biāo)峰重疊,并放棄重疊區(qū)域。

(11)Hypergeometric enrichment scoring (-h)
默認(rèn)情況下,findMotifsGenome.pl使用二項(xiàng)分布來給motifs評(píng)分。當(dāng)背景序列的數(shù)量大大超過目標(biāo)序列時(shí),這種方法很好;但是,如果你使用上面的-bg選項(xiàng),并且背景序列的數(shù)量小于目標(biāo)序列,那么使用超幾何分布(-h)比較好。

(12)Find enrichment of individual oligos (-oligo)
這將在名為oligo.length.txt的輸出目錄中創(chuàng)建輸出文件。

(13)Search for RNA motifs (-rna)
如果是RNA數(shù)據(jù)(例如Clip-Seq),該選項(xiàng)只會(huì)限制HOMER搜索+鏈(相對(duì)于峰),并將輸出RNA motif logo(例如U代替T)。它還將試圖把發(fā)現(xiàn)的motif與RNA motif數(shù)據(jù)庫比較,但是RNA motif數(shù)據(jù)庫現(xiàn)在只包含microRNA。

(14)Optimize motifs (-opt <motif file>)
與尋找新的motif不同,HOMER將試圖優(yōu)化所提供的motif。當(dāng)你試圖改變一個(gè)motif的長(zhǎng)度,或找到一個(gè)非常長(zhǎng)的給定motif時(shí),這個(gè)參數(shù)就非常有用。例如,如果你指定-opt <file>-len 50,它將嘗試將motif擴(kuò)展到50bp并對(duì)其進(jìn)行優(yōu)化。

(七)findMotifsGenome.pl是如何進(jìn)行分析的?

findMotifsGenome.pl是通過一系列步驟來尋找高質(zhì)量的motifs的:

1. 驗(yàn)證峰/BED文件
HOMER確保你有有效的峰,并檢查確保你有唯一的峰標(biāo)識(shí)符(就是峰的ID,也就是BED文件里的第一列)。如果有重復(fù),它將通知你,并將為峰名添加數(shù)字,以確保它們對(duì)于下游分析是唯一的。

2. 從基因組中提取與輸入文件區(qū)域相對(duì)應(yīng)的序列,過濾包含>70%“N”的序列
這一步很容易解釋。HOMER也會(huì)丟棄以“N”為主的序列。如果你覺得你扔掉了太多的序列,試著在一個(gè)unmasked的基因組上運(yùn)行findMotifsGenome.pl。

3.計(jì)算峰序列的GC/CpG含量
CpG島是哺乳動(dòng)物基因組中序列含量偏差最大的來源,不幸的是,它在轉(zhuǎn)錄起始位點(diǎn)附近,所有的活動(dòng)都在那里。。。默認(rèn)情況下,HOMER跟蹤GC%(使用-cpg來使用CpG%)。

4. 準(zhǔn)備基因組序列作為背景序列
這個(gè)步驟只有在你第一次從給定大小的區(qū)域(-size <#>)去找motif的時(shí)候才會(huì)完成。HOMER取基因TSS附近的區(qū)域(+/- 50kb),并將其分割成指定大小的區(qū)域。然后計(jì)算它們的GC/CpG%,并將其存儲(chǔ)起來,以便下次在類似大小區(qū)域中搜索motifs時(shí)加速執(zhí)行。

5. 隨機(jī)選擇背景區(qū)域進(jìn)行motif查找
由于HOMER是差異motif發(fā)現(xiàn)算法,它必須使用背景序列區(qū)域作為對(duì)照。默認(rèn)情況下,HOMER選擇了足夠多的隨機(jī)背景區(qū)域,這樣區(qū)域總數(shù)為50000,或者是峰總數(shù)的2倍,甚至更多的數(shù)量(-N <#>)。使用的總序列越多,程序運(yùn)行的速度就越慢,但你要確保有足夠的背景區(qū)域來可靠地估計(jì)motif頻率。HOMER試圖選擇與輸入序列的GC含量分布相匹配的背景區(qū)域(以5%的增量)。例如,如果你的輸入?yún)^(qū)域富含GC, HOMER會(huì)從基因組中GC豐富的區(qū)域中隨機(jī)選擇區(qū)域作為對(duì)照。如果提供了自定義背景區(qū)域(-bg <peak/BED file>),HOMER會(huì)自動(dòng)確保這些區(qū)域不與目標(biāo)區(qū)域重疊(使用mergePeaks)。自定義區(qū)域仍將按照GC含量進(jìn)行標(biāo)準(zhǔn)化。

6. 序列偏差的自動(dòng)標(biāo)準(zhǔn)化(Autonormalization)
Autonormalization是HOMER提供的一個(gè)獨(dú)特的程序,試圖消除由lower-order oligo(這個(gè)不會(huì)翻譯)序列引入的偏差。它是通過假設(shè)你的目標(biāo)區(qū)域和背景區(qū)域在1-mers, 2-mers, 3-mers中是不平衡的來工作的。Autonormalization的oligo的最大長(zhǎng)度由-nlen <#>指定(默認(rèn)為3,禁用-nlen 0)。例如,目標(biāo)序列中不應(yīng)該比背景中有更多的A。在計(jì)算出每個(gè)oligo的不平衡后,對(duì)每個(gè)背景序列的權(quán)重進(jìn)行少量的調(diào)整,以幫助對(duì)不平衡進(jìn)行標(biāo)準(zhǔn)化。如果目標(biāo)序列具有豐富的A,那么含有較多A的背景序列會(huì)被賦予較高的權(quán)重,而含有較少A的背景序列會(huì)被賦予較低的權(quán)重。權(quán)重只增加了少量,并且這個(gè)過程在爬山算法優(yōu)化(hill climbing optimization)中重復(fù)了很多次。這一程序有助于消除與某些基因組區(qū)域相關(guān)的序列偏倚,或可能由偏倚(如偏倚測(cè)序)引入的的實(shí)驗(yàn)結(jié)果偏倚。

7. 檢查已知motifs的富集程度
HOMER根據(jù)目標(biāo)和背景序列篩選可靠的motif庫進(jìn)行富集,返回p值小于0.05的富集motifs。先進(jìn)行已知的motif富集,因?yàn)樗ǔ1容^快,可以更快地看到你的目標(biāo)區(qū)域富集了什么。已知motif的富集將被輸出一個(gè)名為“knownResults.html”的文件。

8. de novo尋找新的motif
默認(rèn)情況下,HOMER會(huì)搜索len 8、10和12 bp的motifs(使用-len <#,#,#>,之間沒有空格,即-len 6,10,15,20)。從de novo motif查找的輸出將顯示在“homerResults.html”文件中。

(八)findMotifsGenome.pl的輸出文件

上面運(yùn)行后,大概運(yùn)行了1個(gè)小時(shí),生成了以下文件:

homerMotifs.motifs8/10/12:這些是de novo 查找motif的輸出文件,由motif長(zhǎng)度分隔,并代表算法的單獨(dú)運(yùn)行。
homerMotifs.all.motifs:簡(jiǎn)單地由所有homerMotifs.motifs組成的連接文件。
motifFindingParameters.txt:用于執(zhí)行findMotifsGenome.pl的命令,包含你使用的參數(shù)
knownResults.txt:包含關(guān)于已知motifs豐富的統(tǒng)計(jì)信息的文本文件(在EXCEL中打開)。
seq.autonorm.tsv:用于lower-order oligo標(biāo)準(zhǔn)化的autonormalization統(tǒng)計(jì)。
homerResults.html:de novo查找motif的格式化輸出。

homerResults子文件夾:包含homerResults.html網(wǎng)頁文件,包括motif<#>.motif文件,用于尋找每個(gè)motif的具體實(shí)例。
knownResults.html:查找已知motifs的格式化輸出。
knownResults子文件夾:包含knownResults.html網(wǎng)頁文件,包括known<#>.motif文件。

(九)理解輸出的Motif文件

HOMER的真正輸出是“*.motif”文件,其中包含必要的信息,以識(shí)別motif的未來實(shí)例。它們?cè)?code>findMotifs.pl和findMotifsGenome.pl的輸出目錄中。一個(gè)典型的motif文件看起來是這樣的(下面這個(gè)是我運(yùn)行后生成的一個(gè)motif文件):

>NNATGASTCATH   Fra1(bZIP)/BT549-Fra1-ChIP-Seq(GSE46166)/Homer  7.011739    -10.259778  0   T:4.0(57.14%),B:3353.3(3.23%),P:1e-4
0.227   0.228   0.279   0.266
0.285   0.199   0.287   0.229
0.461   0.212   0.256   0.070
0.017   0.005   0.016   0.962
0.015   0.009   0.745   0.231
0.949   0.010   0.001   0.040
0.097   0.363   0.411   0.130
0.028   0.013   0.026   0.933
0.189   0.789   0.009   0.013
0.963   0.012   0.001   0.024
0.074   0.253   0.198   0.475
0.244   0.347   0.172   0.237

第一行以一個(gè)“>”開頭,后面跟著各種信息,其他行是每個(gè)位置的各個(gè)核苷酸具體概率(A/C/G/T)。標(biāo)題行實(shí)際上是用制表符分隔的,并包含以下信息:

  1. “>”+序列(實(shí)際上不用于任何東西,可以是空的)示例:>NNATGASTCATH
  2. motif名稱(如果幾個(gè)motif在同一個(gè)文件中,應(yīng)該是唯一的)。例子:Fra1(bZIP)/BT549-Fra1-ChIP-Seq(GSE46166)/Homer
  3. log odds檢測(cè)閾值,用于確定結(jié)合的vs未結(jié)合位點(diǎn)。示例:7.011739
  4. 富集的log-p值
  5. 0(表示向后兼容性的占位符,在舊版本中用于描述“gapped” motif,結(jié)果證明它并不是很有用)
  6. 發(fā)生的信息,用逗號(hào)分隔,例如:T:4.0(57.14%),B:3353.3(3.23%),P:1e-4
    T:帶motif的靶標(biāo)序列數(shù),占靶序列總數(shù)的%
    B:帶motif的背景序列數(shù)目,占總背景的%
    P:最終富集P值
  7. 用逗號(hào)分隔的Motif統(tǒng)計(jì)信息(這一個(gè)信息是與鏈有關(guān)的,因?yàn)槲业腂ED文件里鏈的哪一列沒有指定是+/-,我輸入的是.,所以這里沒有第7個(gè)信息),官網(wǎng)的例子:Tpos:100.7,Tstd:32.6,Bpos:100.1,Bstd:64.6,StrandBias:0.0,Multiplicity:1.13
    Tpos: motif在目標(biāo)序列中的平均位置(0 =序列開始)
    Tstd:目標(biāo)序列中位置的標(biāo)準(zhǔn)偏差
    Bpos:motif在背景序列中的平均位置(0 =序列開始)
    Bstd:背景序列中位置的標(biāo)準(zhǔn)差
    StrandBias:在+鏈出現(xiàn)與在-鏈出現(xiàn)的log比例。
    Multiplicity:在具有一個(gè)或多個(gè)結(jié)合位點(diǎn)的序列中,每個(gè)序列平均出現(xiàn)的次數(shù)。

(十)如何評(píng)價(jià)你找到的這些motif質(zhì)量?

這一部分的圖我就用官網(wǎng)上的了,因?yàn)楸容^有代表性,你可以用下面的方法來評(píng)價(jià)你自己找到的motif的好壞與否,和可信度。

WARNING:因?yàn)檫@部分是最難理解的,所以官網(wǎng)在這里又說一遍。HOMER會(huì)在motif結(jié)果的旁邊打印出最佳的motif猜測(cè),但在你確定這個(gè)motif在你的序列里富集之前,強(qiáng)烈建議你看看比對(duì)的情況!!下面是一個(gè)可能發(fā)生的例子:

在這種情況下,HOMER已經(jīng)確定YY1是“最好的猜測(cè)”匹配這個(gè)新motif。點(diǎn)擊“More Information”看看有什么:

在這個(gè)例子中,你可以看到,motif比對(duì)在已知的YY1 motif的邊緣,而不是YY1 motif 的核心(CAAGATGGC)。這并不意味著YY1 motif在你的數(shù)據(jù)中沒有得到富集,但除非有其他motif結(jié)果顯示YY1 motif在其他地方得到富集,否則YY1 motif不太可能在你的數(shù)據(jù)集中得到富集(有點(diǎn)繞,多讀幾遍就懂了)。

和往常一樣,記住HOMER是一個(gè)de novo的查找motif的工具!! 即使HOMER會(huì)猜出最好的匹配,如果它是一個(gè)新的motif,無論如何你都不想相信那個(gè)匹配。因此,你可以看到比對(duì)的重要性,并得到證據(jù)來支持或反對(duì)這個(gè)匹配。

在很多情況下,HOMER會(huì)找到p值很低的motif,但這些motif可能看起來“不太靠譜”。質(zhì)量差的motif可以大致分為以下幾類:

(1)Low Complexity Motifs(低復(fù)雜度的motif):
(在v3版本里比較少見)這些類型的motif傾向于在每個(gè)位置顯示相同的1、2、3或4個(gè)核苷酸的集合。例如:

當(dāng)目標(biāo)序列和背景序列之間存在系統(tǒng)性偏差時(shí),這些motif通常會(huì)出現(xiàn)。通常它們的GC含量非常高,在這種情況下,你可以嘗試在motif finding命令中添加-gc,以總GC含量而不是CpG含量進(jìn)行標(biāo)準(zhǔn)化。

其他時(shí)候,例如,在一些生物體中將啟動(dòng)子序列與隨機(jī)基因組背景序列進(jìn)行比較時(shí),會(huì)顯示出對(duì)嘌呤或嘧啶的偏好。HOMER非常敏感,所以如果序列的組成有偏差,HOMER很可能會(huì)發(fā)現(xiàn)。新版本中的Autonormalization解決了這個(gè)問題。

(2)Simple Repeat Motifs(簡(jiǎn)單重復(fù)的motifs):
(在v3.0+版本里很少出現(xiàn)) 有時(shí)motifs還會(huì)顯示出重復(fù)的序列:

通常像這樣的motif將伴隨著幾個(gè)其他的motif,看起來高度相似。除非有充分的理由相信這些可能是真實(shí)的,否則最好假設(shè)背景可能有問題。如果你的目標(biāo)序列在外顯子和其他類型的序列上高度富集,就會(huì)出現(xiàn)這種情況,如果-gc不起作用,你可能必須仔細(xì)考慮你要分析的序列類型并試圖匹配它們。(例如啟動(dòng)子vs.啟動(dòng)子,外顯子vs.外顯子等)。你也可以嘗試使用-olen <#>在寡核苷酸水平上自動(dòng)標(biāo)準(zhǔn)化序列偏差。

(3)Small Quantity Motifs / Repeats(小數(shù)量的motif):
這個(gè)解釋起來有點(diǎn)難。這些看起來像真正的motif,但在目標(biāo)序列里只有一個(gè)非常低的百分比。例如,一個(gè)oligo或一個(gè)repeat,在一些目標(biāo)序列中出現(xiàn),看起來是一個(gè)重要motif。從統(tǒng)計(jì)學(xué)上講,它們是富集的,但可能不是真的。當(dāng)從一個(gè)小的調(diào)控基因列表中尋找啟動(dòng)子的motif時(shí),這是最大的問題。原則上,motif在不到5%的靶序列中存在,這可能是個(gè)問題。

(4)Leftover Junk(剩下的“垃圾”?我并不想這么翻譯。。。)
這些motif出現(xiàn)在你的結(jié)果列表比較靠后的位置。如果一個(gè)元件在你的序列中高度富集,HOMER會(huì)找到它,掩蓋它,然后繼續(xù)尋找motif。在這種情況下,許多HOMER發(fā)現(xiàn)的其他motif將被高度富集的motif抵消。例如(另一個(gè)pu1例子):

排名很高的motif:

排名靠后的motif:

這并不一定是陰性的結(jié)果,但是應(yīng)該把它們放在特定的環(huán)境中。這通常發(fā)生在ChIP-Seq數(shù)據(jù)集里,并與大量的結(jié)合位點(diǎn)緊密結(jié)合。這些“其他”motif很可能也能結(jié)合PU.1,只是可能代表低親和力結(jié)合位點(diǎn),但不建議在這種情況下關(guān)注它們。一個(gè)更安全的方法是重復(fù)motif尋找步驟,但是用不包含高富集motif的那些序列?;蛲ㄟ^添加-mask <motif file>到motif finding 命令再嘗試一下。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過簡(jiǎn)信或評(píng)論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容