2018-11-18

轉(zhuǎn)錄調(diào)控的信息學(xué)分析

0. 引言

1. 轉(zhuǎn)錄因子結(jié)合位點(diǎn)的信息學(xué)預(yù)測方法

大量的實(shí)驗(yàn)證據(jù)表明,TFBS的長度一般在6~12bp之間。

然而,ChIP-chip技術(shù)的分辨率在200~800bp左右,遠(yuǎn)大于TFBS的長度,所以需要計(jì)算方法來確定TFBS的確切位置。

與之相比,ChIP-seq技術(shù)的分辨率可以達(dá)到100bp,甚至更高。

因此隨著基因芯片和深度測序等高通量數(shù)據(jù)的出現(xiàn),計(jì)算方法在TFBS的分析中得到了廣泛的應(yīng)用。

對TFBS的計(jì)算研究可分為兩類問題

  • 轉(zhuǎn)錄因子結(jié)合位點(diǎn)的定位(location of TFBS)

    根據(jù)若干已知TFBS的motif,在所研究的某個(gè)基因啟動子區(qū)域內(nèi),搜索相應(yīng)轉(zhuǎn)錄因子可能的結(jié)合位點(diǎn)。

  • 轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識別(identification of TFBS)

    通過收集多個(gè)基因啟動子序列,在其中尋找具有統(tǒng)計(jì)顯著性的短片段,作為同一轉(zhuǎn)錄因子可能的結(jié)合位點(diǎn)。

一、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的表示方法

  • 共有序列(consensus sequence)

    • 不同基因的啟動子區(qū)域中,同一轉(zhuǎn)錄因子的結(jié)合位點(diǎn)并不完全相同??梢詫ν粋€(gè)轉(zhuǎn)錄因子結(jié)合的所有DNA片段按照對應(yīng)位置進(jìn)行排列,在每個(gè)位置上選擇最有可能出現(xiàn)的堿基,組成了該TFBS的共有序列。

    • 共有序列中用A、T、C、G之外的字母來表示結(jié)合位點(diǎn)中各個(gè)位置上可能出現(xiàn)的堿基組合,這些字母被稱為IUPAC簡并碼(IUPAC degenerate codes)。

    • 共有序列的表示方法簡明易懂,卻不能反映每個(gè)位置上不同堿基出現(xiàn)的頻率。

      IUPAC code Nucleotide IUPAC code Nucleotide
      W A or T B C, G or T
      R A or G D A, G or T
      K G or T H A, C or T
      S C or G V A, C or G
      Y C or T N A, C, G or T
      M A or C
  • 位置頻率矩陣(position frequency matrix,PFM)

    • 位置頻率矩陣可以反映出每個(gè)位置上不同堿基出現(xiàn)的頻率。
    • 該模型的一個(gè)前提假設(shè)是,各個(gè)位置上堿基出現(xiàn)的頻率相互獨(dú)立。矩陣每一列表示motif相應(yīng)位置上四種堿基出現(xiàn)的頻率。對于長度為n的motif,堿基i(i={A,C,G,T})在motif第j個(gè)位置上出現(xiàn)的頻率為q_{i,j}。
  • 序列標(biāo)識圖(sequence logo)

    • 序列標(biāo)識圖依次繪出motif中各個(gè)位置上出現(xiàn)的堿基,每個(gè)位置上所有堿基的累積反映了該位置上堿基的一致性,每個(gè)堿基字母的大小與堿基在該位置上出現(xiàn)的頻率成正比。
    • 這種表示方法直觀地給出motif各個(gè)位置上堿基出現(xiàn)的傾向性和整個(gè)motif序列的一致性,應(yīng)用非常廣泛。
TFBS表示法

二、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的定位

  • 轉(zhuǎn)錄因子結(jié)合位點(diǎn)定位的計(jì)算方法

    • 對任一長度為n的已知motif位置頻率矩陣M,TFBS定位就是判斷某一長度為n的序列片段與M的匹配程度??紤]到DNA序列本身有可能存在堿基組成上的偏向性,通常把位置頻率矩陣轉(zhuǎn)換為位置權(quán)重矩陣(position weight matrix,PWM)。用位置權(quán)重矩陣的打分來衡量motif與任意給定序列的匹配程度。
    • 在位置權(quán)重矩陣中,引入堿基i(i={A,C,G,T})在背景序列中出現(xiàn)的頻率記為b_i來消除DNA本身堿基組成偏向性的影響。位置頻率中的每一個(gè)元素記為S_{i,j}
      S_{i,j} = log(\frac{q_{i,j}}{b_i})
    • 對于長度為n的DNA序列片段,它作為模體M對應(yīng)的TFBS的打分為:
      S_{i,j} = \sum_{j=1}^{n}S_{t_j,j}
      其中,t_j表示相應(yīng)序列第j個(gè)位置上出現(xiàn)的堿基。給定閾值T,如果序列片段由上式給出的打分S \geq T,則認(rèn)為它有可能是相應(yīng)轉(zhuǎn)錄因子的結(jié)合位點(diǎn)。
  • 轉(zhuǎn)錄因子結(jié)合位點(diǎn)定位的預(yù)測

    在TRANSFAC中包括了多種轉(zhuǎn)錄因子及其結(jié)合位點(diǎn)的預(yù)測工具:

    • AliBaba 2.1
    • P-Match
    • Patch
    • MatrixCatch

三、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識別

  • 獲取靶基因序列
    • 從基因差異表達(dá)譜芯片數(shù)據(jù)出發(fā)獲取多靶基因啟動子序列
    • 從差異表達(dá)蛋白質(zhì)數(shù)據(jù)出發(fā)獲取多靶基因啟動子序列
    • 從ChIP-chip和ChIP-seq數(shù)據(jù)出發(fā)獲得結(jié)合位點(diǎn)序列
  • 轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別的預(yù)測
    • 單個(gè)motif預(yù)測算法
    • 比較基因組學(xué)
    • bootstrapping算法

2. 轉(zhuǎn)錄調(diào)控相關(guān)數(shù)據(jù)庫

  • TRANSFAC數(shù)據(jù)庫
  • JASPAR數(shù)據(jù)庫
  • TRED數(shù)據(jù)庫
  • 其他轉(zhuǎn)錄調(diào)控相關(guān)數(shù)據(jù)庫
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容