motif分析-MEME

1 什么是motif分析

在DNA或蛋白的同源序列中,不同位點的保守程度是不一樣的,一般來說,對DNA或蛋白質(zhì)功能和結(jié)構(gòu)影響比較大的位點會比較保守,其它位點則不是很保守。這些保守的位點就稱為“模體(motif)”。motif最先是通過實驗的方法發(fā)現(xiàn)的。motif這個單詞就是形容一種反復(fù)出現(xiàn)的模式,而序列motif往往是DNA上的反復(fù)出現(xiàn)的模式,并被假設(shè)擁有生物學(xué)功能。而且,經(jīng)常是一些具有序列特異性的蛋白的結(jié)合位點(如,轉(zhuǎn)錄因子)或者是涉及到重要生物過程的(如,RNA 起始,RNA 終止, RNA 剪切等等)。目前被人們識別出來的motif也越來越多,如TRANSFAC和JASPAR數(shù)據(jù)庫都有著大量轉(zhuǎn)錄因子的motif。

2 分析motif的軟件

分析motif發(fā)軟件很多,如常見的有motif-x、、MochiView、CisGenome等。但這些軟件中大部分都是網(wǎng)頁版的,無法批量化進行分析,也很難實現(xiàn)自動化。MEME是一款比較經(jīng)典的motif分析的軟件,除了在線版本外MEME還有適用于可適用于dna、rna和蛋白序列。這款軟件包含多種功能,包括motif預(yù)測、motif富集分析、motif比較分析等。
MEME網(wǎng)址:

2.1MEME分析原理

MEME是一個工具包,包含多個軟件。其中MEME是進行motif挖掘的軟件,MEME不允許模體中有空位。MAST是在通過MEME得到一個motif之后,在其它的序列中查找這個motif,是MEME的一個后續(xù)的分析,可以在MEME運行結(jié)束后,通過超級鏈接繼續(xù),也可以通過保存meme的文本格式文件。GLAM2類似于MEME,但允許莫提中有空位。GLAM2SCAN類似于MAST,MAST不允許模體中有空位,GLAM2SCAN允許模體中有空位。MEME有web和Linux兩個版本,web版地址:。整個工具包設(shè)計邏輯如下:


image.png

2.2MEME實現(xiàn)方法

2.2.1使用示例

meme test.fa -protein -oc result -nostatus -time 1800000 -mod zoops -nmotifs 3 -minw 6 -maxw 13 -objfun classic -markov_order 0(同web版參數(shù))

2.2.2程序說明

-protein 待預(yù)測的為蛋白序列
-oc result 輸出路徑
-nostatus 不將軟件計算過程輸出到屏幕上
-time 1800000 CPU消耗時間達到<time>后停止計算
-mod zoops motif的分布類型
· oops 每個功能域在每一段序列中都會出現(xiàn)一次,而且只出現(xiàn)一次。這種模式是運算速度最快,而且最為敏感的。但是如果并不是每個序列都包含功能域,那就可能會有不正確的結(jié)果。
· zoops 每個功能域在每一段序列中至多只出現(xiàn)一次,可能不出現(xiàn)。這種模式運算速度較快,敏感性稍弱。
· anr 每個功能域在每一段序列中出現(xiàn)的次數(shù)不定。這種模式運算速度最慢,可能會多花十倍以上的時間。但是對于功能分布的情況完全未知的情況下,這一參數(shù)可能會有幫助
-nmotifs 3 檢測到的motif的最大限制
-minw 6 motif最大長度
-maxw 13 motif最小長度
-objfun classic motif檢測的函數(shù)算法
-markov_order 0 馬爾科夫模型使用的順序

2.2.3軟件參數(shù)詳細說明

Usage: meme <dataset> [optional arguments]
<dataset> file containing sequences in FASTA format
[-h] print this message
[-o <output dir>] name of directory for output files,will not replace existing directory
[-oc <output dir>] name of directory for output files,will replace existing directory
[-text] output in text format (default is HTML)
[-objfun classic|de|se|cd|ce] obxxxxjective function (default: classic)
[-test mhg|mbn|mrs] statistical test type (default: mhg)
[-use_llr] use LLR in search for starts in Classic mode
[-neg <negdataset>] file containing control sequences
[-shuf <kmer>] preserve frequencies of k-mers of size <kmer> ,when shuffling (default: 2)
[-hsfrac <hsfrac>] fraction of primary sequences in holdout set (default: 0.5)
[-cefrac <cefrac>] fraction sequence length for CE region (default: 0.25)
[-searchsize <ssize>]maximum portion of primary dataset to use,for motif search (in characters)
[-maxsize <maxsize>] maximum dataset size in characters
[-norand] do not randomize the order of the input ,sequences with -searchsize
[-csites <csites>] maximum number of sites for EM in Classic mode
[-seed <seed>] random seed for shuffling and sampling
[-dna] sequences use DNA alphabet
[-rna] sequences use RNA alphabet
[-protein] sequences use protein alphabet
[-alph <alph file>] sequences use custom alphabet
[-revcomp] allow sites on + or - DNA strands
[-pal] force palindromes (requires -dna)
[-mod oops|zoops|anr] distribution of motifs
[-nmotifs <nmotifs>] maximum number of motifs to find
[-evt <ev>] stop if motif E-value greater than <evt>
[-time <t>] quit before <t> CPU seconds consumed
[-nsites <sites>] number of sites for each motif
[-minsites <minsites>] minimum number of sites for each motif
[-maxsites <maxsites>] maximum number of sites for each motif
[-wnsites <wnsites>] weight on expected number of sites
[-w <w>] motif width
[-minw <minw>]     minimum motif width
[-maxw <maxw>] maximum motif width
[-allw] test starts of all widths from minw to maxw
[-nomatrim] do not adjust motif width using multiple
 alignment
[-wg <wg>] gap opening cost for multiple alignments
[-ws <ws>] gap extension cost for multiple alignments
[-noendgaps] do not count end gaps in multiple alignments
[-bfile <bfile>] name of background Markov model file
[-markov_order <order>] (maximum) order of Markov model to use or create
[-psp <pspfile>] name of positional priors file
[-maxiter <maxiter>] maximum EM iterations to run
[-distance <distance>] EM convergence criterion
[-prior dirichlet|dmix|mega|megap|addone] type of prior to use
[-b <b>] strength of the prior
[-plib <plib>] name of Dirichlet prior file
[-spfuzz <spfuzz>] fuzziness of sequence to theta mapping
[-spmap uni|pam] starting point seq to theta mapping type
[-cons <cons>] consensus sequence to start EM from
[-brief <n>] omit sites and sequence tables in output if more than <n> primary sequences
[-nostatus] do not print progress reports to terminal
[-p <np>] use parallel version with <np> processors
[-sf <sf>] print <sf> as name of sequence file
[-V] verbose mode
[-version] display the version number and exit

2.2.4結(jié)果展示及說明

meme.html -交互式的、可讀性強的HTML格式展示的結(jié)果
meme.txt -兼容早期MEME版本的純文本文件結(jié)果
meme.xmxxxxl -為機器處理設(shè)計的xmxxxxl格式的結(jié)果文件
logoN.png.eps - PNG and EPS 格式的miotif logos文件


image.png

注:氨基酸字符大小表示該位點出現(xiàn)8某種氨基酸頻率的高低

2.3 注意事項

a)MEME不支持motif中有g(shù)ap。
b)Linux下Motif檢測使用的參數(shù)同web版MEME

2.4軟件相關(guān)文獻引用

Timothy L. Bailey and Charles Elkan "Fitting a mixture model by expectation maximization to discover motifs in biopolymers" Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology pp. 28-36 AAAI Press Menlo Park California 1994.

原創(chuàng)文字,如果覺得對你有幫助留下你的贊哦~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • GEM(Genome wide Event finding and Motif discovery) 2.GPS和...
    horsefish閱讀 2,164評論 0 3
  • cis-regulatory motifs 轉(zhuǎn)錄調(diào)控 Transcription start site (TSS)...
    思考問題的熊閱讀 7,669評論 1 25
  • Introduction What is Bowtie 2? Bowtie 2 is an ultrafast a...
    wzz閱讀 6,182評論 0 5
  • CNTK中GPU信息的獲取 device接口 CNTK提供了device接口,可以訪問gpu的幾個基本參數(shù)。 獲取...
    Jtag特工閱讀 393評論 0 0
  • 20多歲剛參加工作,在工地做工程監(jiān)理。和校友師弟站在剛開挖的基坑前,我就默默的告訴自己未來一定要我所看、所想...
    羽斐閱讀 287評論 3 1

友情鏈接更多精彩內(nèi)容