轉(zhuǎn)錄調(diào)控的信息學(xué)分析

0. 引言

1. 轉(zhuǎn)錄因子結(jié)合位點(diǎn)的信息學(xué)預(yù)測方法

大量的實(shí)驗(yàn)證據(jù)表明，TFBS的長度一般在6~12bp之間。

然而，ChIP-chip技術(shù)的分辨率在200~800bp左右，遠(yuǎn)大于TFBS的長度，所以需要計(jì)算方法來確定TFBS的確切位置。

與之相比，ChIP-seq技術(shù)的分辨率可以達(dá)到100bp，甚至更高。

因此隨著基因芯片和深度測序等高通量數(shù)據(jù)的出現(xiàn)，計(jì)算方法在TFBS的分析中得到了廣泛的應(yīng)用。

對TFBS的計(jì)算研究可分為兩類問題：

轉(zhuǎn)錄因子結(jié)合位點(diǎn)的定位（location of TFBS）

根據(jù)若干已知TFBS的motif，在所研究的某個(gè)基因啟動子區(qū)域內(nèi)，搜索相應(yīng)轉(zhuǎn)錄因子可能的結(jié)合位點(diǎn)。
轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識別（identification of TFBS）

通過收集多個(gè)基因啟動子序列，在其中尋找具有統(tǒng)計(jì)顯著性的短片段，作為同一轉(zhuǎn)錄因子可能的結(jié)合位點(diǎn)。

一、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的表示方法

共有序列（consensus sequence）
- 不同基因的啟動子區(qū)域中，同一轉(zhuǎn)錄因子的結(jié)合位點(diǎn)并不完全相同?？梢詫ν粋€(gè)轉(zhuǎn)錄因子結(jié)合的所有DNA片段按照對應(yīng)位置進(jìn)行排列，在每個(gè)位置上選擇最有可能出現(xiàn)的堿基，組成了該TFBS的共有序列。
- 共有序列中用 $A、T、C、G$ 之外的字母來表示結(jié)合位點(diǎn)中各個(gè)位置上可能出現(xiàn)的堿基組合，這些字母被稱為 $IUPAC$ 簡并碼（IUPAC degenerate codes）。
- 共有序列的表示方法簡明易懂，卻不能反映每個(gè)位置上不同堿基出現(xiàn)的頻率。
  
  IUPAC code Nucleotide IUPAC code Nucleotide
  
  W A or T B C, G or T
  
  R A or G D A, G or T
  
  K G or T H A, C or T
  
  S C or G V A, C or G
  
  Y C or T N A, C, G or T
  
  M A or C
位置頻率矩陣（position frequency matrix，PFM）
- 位置頻率矩陣可以反映出每個(gè)位置上不同堿基出現(xiàn)的頻率。
- 該模型的一個(gè)前提假設(shè)是，各個(gè)位置上堿基出現(xiàn)的頻率相互獨(dú)立。矩陣每一列表示motif相應(yīng)位置上四種堿基出現(xiàn)的頻率。對于長度為 $n$ 的motif，堿基 $i（i={A,C,G,T}）$ 在motif第 $j$ 個(gè)位置上出現(xiàn)的頻率為 $q_{i,j}$ 。
序列標(biāo)識圖（sequence logo）
- 序列標(biāo)識圖依次繪出motif中各個(gè)位置上出現(xiàn)的堿基，每個(gè)位置上所有堿基的累積反映了該位置上堿基的一致性，每個(gè)堿基字母的大小與堿基在該位置上出現(xiàn)的頻率成正比。
- 這種表示方法直觀地給出motif各個(gè)位置上堿基出現(xiàn)的傾向性和整個(gè)motif序列的一致性，應(yīng)用非常廣泛。

IUPAC code	Nucleotide	IUPAC code	Nucleotide
W	A or T	B	C, G or T
R	A or G	D	A, G or T
K	G or T	H	A, C or T
S	C or G	V	A, C or G
Y	C or T	N	A, C, G or T
M	A or C

TFBS表示法

二、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的定位

轉(zhuǎn)錄因子結(jié)合位點(diǎn)定位的計(jì)算方法
- 對任一長度為 $n$ 的已知motif位置頻率矩陣 $M$ ，TFBS定位就是判斷某一長度為 $n$ 的序列片段與M的匹配程度?？紤]到DNA序列本身有可能存在堿基組成上的偏向性，通常把位置頻率矩陣轉(zhuǎn)換為位置權(quán)重矩陣（position weight matrix，PWM）。用位置權(quán)重矩陣的打分來衡量motif與任意給定序列的匹配程度。
- 在位置權(quán)重矩陣中，引入堿基 $i（i={A,C,G,T}）$ 在背景序列中出現(xiàn)的頻率記為 $b_i$ 來消除DNA本身堿基組成偏向性的影響。位置頻率中的每一個(gè)元素記為 $S_{i,j}$ ：
  $S_{i,j} = log(\frac{q_{i,j}}{b_i})$
- 對于長度為 $n$ 的DNA序列片段，它作為模體M對應(yīng)的TFBS的打分為：
  $S_{i,j} = \sum_{j=1}^{n}S_{t_j,j}$
  其中， $t_j$ 表示相應(yīng)序列第 $j$ 個(gè)位置上出現(xiàn)的堿基。給定閾值 $T$ ，如果序列片段由上式給出的打分 $S$ $\geq$ $T$ ，則認(rèn)為它有可能是相應(yīng)轉(zhuǎn)錄因子的結(jié)合位點(diǎn)。
轉(zhuǎn)錄因子結(jié)合位點(diǎn)定位的預(yù)測

在TRANSFAC中包括了多種轉(zhuǎn)錄因子及其結(jié)合位點(diǎn)的預(yù)測工具：
- AliBaba 2.1
- P-Match
- Patch
- MatrixCatch

三、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識別

獲取靶基因序列
- 從基因差異表達(dá)譜芯片數(shù)據(jù)出發(fā)獲取多靶基因啟動子序列
- 從差異表達(dá)蛋白質(zhì)數(shù)據(jù)出發(fā)獲取多靶基因啟動子序列
- 從ChIP-chip和ChIP-seq數(shù)據(jù)出發(fā)獲得結(jié)合位點(diǎn)序列
轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別的預(yù)測
- 單個(gè)motif預(yù)測算法
- 比較基因組學(xué)
- bootstrapping算法

2. 轉(zhuǎn)錄調(diào)控相關(guān)數(shù)據(jù)庫

TRANSFAC數(shù)據(jù)庫
JASPAR數(shù)據(jù)庫
TRED數(shù)據(jù)庫
其他轉(zhuǎn)錄調(diào)控相關(guān)數(shù)據(jù)庫

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2018-11-18

2018-11-18

轉(zhuǎn)錄調(diào)控的信息學(xué)分析

0. 引言

1. 轉(zhuǎn)錄因子結(jié)合位點(diǎn)的信息學(xué)預(yù)測方法

一、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的表示方法

二、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的定位

三、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識別

2. 轉(zhuǎn)錄調(diào)控相關(guān)數(shù)據(jù)庫

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

2018-11-18

轉(zhuǎn)錄調(diào)控的信息學(xué)分析

0. 引言

1. 轉(zhuǎn)錄因子結(jié)合位點(diǎn)的信息學(xué)預(yù)測方法

一、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的表示方法

二、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的定位

三、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識別

2. 轉(zhuǎn)錄調(diào)控相關(guān)數(shù)據(jù)庫

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

三、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識別