歡迎關(guān)注”生信修煉手冊”!
ENCODE數(shù)據(jù)庫中包含了許多轉(zhuǎn)錄因子的chip-seq數(shù)據(jù),通過對chip-seq數(shù)據(jù)進(jìn)行分析,可以預(yù)測得到該轉(zhuǎn)錄因子對應(yīng)的靶基因數(shù)據(jù)。
通過整合多個(gè)轉(zhuǎn)錄因子的分析結(jié)果,就可以構(gòu)建一個(gè)轉(zhuǎn)錄因子靶基因數(shù)據(jù)庫,網(wǎng)址如下
http://amp.pharm.mssm.edu/Harmonizome/dataset/ENCODE+Transcription+Factor+Targets
該數(shù)據(jù)庫中包含181種轉(zhuǎn)錄因子的靶基因數(shù)據(jù),每種轉(zhuǎn)錄因子的靶基因?qū)?yīng)一個(gè)數(shù)據(jù)集,示意如下
以轉(zhuǎn)錄因子ARID3A為例,結(jié)果如下
從截圖中也可以看到,雖然chip-seq數(shù)據(jù)有實(shí)驗(yàn)證據(jù)的支持,但是由于peak-calling的假陽性等問題,最終得到的靶基因的數(shù)量是非常多的,這其中的假陽性率不言而喻。
該網(wǎng)站的數(shù)據(jù)不僅可以瀏覽,也可以下載。對于單個(gè)轉(zhuǎn)錄因子的靶基因數(shù)據(jù),可以通過如下API進(jìn)行下載
http://amp.pharm.mssm.edu/Harmonizome/api/1.0/gene_set/ARID3A/ENCODE+Transcription+Factor+Targets
上述鏈接可以下載轉(zhuǎn)錄因子ARID3A對應(yīng)的靶基因數(shù)據(jù),對于其他的轉(zhuǎn)錄因子,只需要替換掉對應(yīng)的TF的名字即可。API返回的是JSON格式的數(shù)據(jù),需要一定的編程技巧才可以得到類似excel的文件形式。
對于整個(gè)數(shù)據(jù)庫,可以通過如下API獲得全部轉(zhuǎn)錄因子對應(yīng)的數(shù)據(jù)的鏈接
http://amp.pharm.mssm.edu/Harmonizome/api/1.0/dataset/ENCODE+Transcription+Factor+Targets
然后就可以下載到整個(gè)數(shù)據(jù)庫了。整個(gè)數(shù)據(jù)庫中的信息簡單直接,缺點(diǎn)就是假陽性率高。在線檢索功能非常方便,但是下載數(shù)據(jù)庫的話需要一定的編程技巧進(jìn)行處理。
·end·
—如果喜歡,快分享給你的朋友們吧—
掃描關(guān)注微信號,更多精彩內(nèi)容等著你!