我們都知道ChIP-seq生物信息分析流程主要涉及:數(shù)據過濾、序列比對、檢峰、模體(motif)分析。
其核心的問題是尋找可靠的motif,也即轉錄因子結合位點結合的序列特征。
何謂模體
?motif:再現(xiàn)的模式,如序列模體,結構基序或網絡基。
這些基序通常是一些具有序列特異性的蛋白的結合位點(轉錄因子等)或涉及到重要的生物過程。
模體源起
早在1975年,Pribnow就發(fā)現(xiàn)了啟動子區(qū)域的“TATAAT”盒,也成為pribnow框,它與上游的“TTGACA”基序是RNA聚合酶結合位點的特異性序列,在原核生物中這種特點尤其明顯。
但是,并不是所有的結合位點都一定完美地與基序匹配。此外,結合位點與基序的匹配程度往往也與蛋白質、DNA的結合強弱程度有關。
發(fā)現(xiàn)模體
最初都是從生化試驗開始的,諸如DNA酶足跡(DNase footprinting)、報告載體試驗(reporter construct assays)等。后來,衍生出了許多基于試驗-測序-計算的方法(ChIP-seq等)。
越來越多的基序被鑒定和驗證,完善的基序數(shù)據庫JASPAR(http://jaspar.genereg.net/)、TRANSFAC(http://gene-regulation.com/pub/databases.html)等也被建立起來。使得研究者們更加方便的去研究基序的功能。
這里主要介紹基于二代測序數(shù)據進行基序的檢出和鑒定。
用于從頭檢測基序:homer、meme、dreme,glam2;
對檢出基序注釋:tomtom(與meme、dreme同屬于MEME suite)
多個基序聚類:MCAST
尋找基序在序列中的位點:FIMO、MAST、glam2scan
基序功能注釋:GOMO、CentriMo、AME、SpaMo
展示形式
文章中大部分的展示形式是以序列一致性的logo進行展示。

The height of symbols within the stack indicates the relative frequency (relative proportion and conserved property) of each amino or nucleic acid at that position.
一個序列l(wèi)ogo圖是代表著多個序列比對后包含顏色標記的堿基字母垛疊在一起的圖形展示。logo的總高度依賴于序列的保守程度,堿基/氨基酸保守程度越高,字母的高度越高。每個位置(垛)中的字母從最高頻率到最低頻率進行排序,多以可以從各個位置的頂端讀取一致性序列。
數(shù)據格式
那么上述序列l(wèi)ogo圖的背后是以什么數(shù)據格式來呈現(xiàn)呢?
(1)Consensus Sequence(一致性序列)
這里首先引入堿基編碼規(guī)則,由于基序中相同的位置可能出現(xiàn)的堿基不盡相同,這種情況下對其進行新的字母編碼,以區(qū)分多種可能的堿基。

實測示例:G/A =R

(2)矩陣打分
基于矩陣(Matrix)將各個一致性位置的堿基的都表示出來。
具體分為3種方法:1)Count-matrix, 即對各個位置堿基進行計數(shù); 2)位置頻率矩陣(position frequency matrix, PFM),即計算各個位置堿基的百分比和位置權重打分(position weight scoring, PWM),即頻率取對數(shù)。
PFM又稱:位置特異的概率矩陣(position-specific probability matrix,PSPM),位置特異的頻率矩陣(position-specific frequency matrix,PSFM)

PWM又稱:位置特異的打分矩陣(position-specific scoring matrix,PSSM)和位置特異的權重矩陣(position-specific weight matrix,PSWM)

參考資料
1. https://www.nature.com/articles/nbt0406-423
2. http://meme-suite.org/
3. Sequence logos: a new way to display consensus sequences. Nucleic Acids Res. 1990 Oct 25;18(20):6097-100.
4. https://prosite.expasy.org/sequence_logo.html
5. http://www.bioinformatics.org/sms2/iupac.html