refTSS:為轉(zhuǎn)錄起始位點(diǎn)精準(zhǔn)“定位”的數(shù)據(jù)庫

轉(zhuǎn)錄從哪里起始?答案是——在轉(zhuǎn)錄起始位點(diǎn)(TSS)。TSS 不只是一個位置符號,它把轉(zhuǎn)錄本、啟動子、轉(zhuǎn)錄因子結(jié)合、染色質(zhì)狀態(tài)這些信息連成一條線。

在基因表達(dá)調(diào)控的研究中,轉(zhuǎn)錄起始位點(diǎn)(Transcription Start Site, TSS) 的精確定位是理解基因如何被激活或抑制的關(guān)鍵。然而,傳統(tǒng)的TSS注釋往往存在分辨率低、組織特異性差等問題,難以滿足日益精細(xì)的轉(zhuǎn)錄組學(xué)研究需求。

來自Riken的研究團(tuán)隊(duì)在《Journal of Molecular Biology》上發(fā)表了一篇重要論文,介紹了一個全新的數(shù)據(jù)庫——refTSS, 一個面向人類和小鼠的 高質(zhì)量 TSS 參考數(shù)據(jù)集,為TSS研究帶來了突破性進(jìn)展。

數(shù)據(jù)庫最新版地址(建議收藏): http://reftss.clst.riken.jp/

數(shù)據(jù)庫初版地址:https://reftss.riken.jp/reftss-v3/Main_Page

論文鏈接:https://www.sciencedirect.com/science/article/pii/S0022283619302530

[圖片上傳失敗...(image-481aae-1757303687205)]

refTSS 是什么?

簡言之,refTSS 是把大量公開的 TSS 資源再加工整合后得到的“參考 TSS 集”,覆蓋人和小鼠。數(shù)據(jù)條目包括每個 TSS 的基因注釋、峰位坐標(biāo)、質(zhì)量評估結(jié)果,以及在物種之間的保守性信息,是研究轉(zhuǎn)錄起始與啟動子調(diào)控的實(shí)用基礎(chǔ)資源。

[圖片上傳失敗...(image-bf17ac-1757303687205)]

refTSS數(shù)據(jù)來自哪里?它是如何構(gòu)建的?

refTSS 并不是某一次實(shí)驗(yàn)的產(chǎn)物,而是把多個高質(zhì)量來源匯聚、重處理并統(tǒng)一標(biāo)準(zhǔn)化得到的成果。主要來源包括(但不限于):

  • FANTOM5 的 CAGE 數(shù)據(jù)(高精度定位 5' cap,適合檢測 TSS);
  • DBTSS、EPDnew、ENCODE 等已發(fā)表或公共資源的 TSS/啟動子注釋;
  • 研究組對這些數(shù)據(jù)進(jìn)行了峰識別、跨資源合并、質(zhì)量過濾與物種間比對,最后生成可查詢的 reference 集與可視化 track。

最終得到:

  • Human TSS peaks:224,694
  • Mouse TSS peaks:173,204

提供了哪些注釋與質(zhì)量信息?

每個 TSS 除了坐標(biāo)外,還帶有:

  • 基因/轉(zhuǎn)錄注釋(若有)
  • QC 指標(biāo):TATA-box 富集、GC 含量分布、以及用 TomeTools 的“TSS-ness”分類
  • 與 ENSEMBL Regulatory Build(ERB)的重疊類型(promoter、promoter-flanking、enhancer 等)
  • 人鼠保守性(通過 liftOver 比對得到)

47–56% 的 TSS peaks 與 ERB 注釋的 promoter/相關(guān)區(qū)域重疊;約 45% 的 TSS peaks 在人鼠間被識別為保守(不同類別按是否注釋為 ortholog 等進(jìn)一步細(xì)分)。

應(yīng)用場景:

  • 定位 TSS:當(dāng)你用 RNA-seq、長讀長測序或 CAGE 得到轉(zhuǎn)錄起始信息時,可用 refTSS 驗(yàn)證/注釋 TSS。
  • 研究啟動子調(diào)控:將 ChIP-seq(TF、Pol II、H3K4me3/H3K27ac 等)與 refTSS 對齊,可以更精確地分析哪個啟動子在什么時候活躍。
  • 比較物種保守性:refTSS 包含人-鼠保守性信息,便于比較進(jìn)化保守的啟動子使用。參考TSS
  • 支持功能注釋與新轉(zhuǎn)錄本鑒定:對新發(fā)現(xiàn)的轉(zhuǎn)錄本或 isoform,refTSS 可作為確認(rèn)其起始位點(diǎn)的參考。

(在發(fā)育或刺激時間序列的轉(zhuǎn)錄調(diào)控研究中,refTSS 特別有用 —— 它可以幫助把“哪個啟動子在什么時候開關(guān)”這個問題落到基因組坐標(biāo)上。)

怎么使用這個數(shù)據(jù)資源?

[圖片上傳失敗...(image-58b8f2-1757303687205)]

  • 網(wǎng)站(http://reftss.clst.riken.jp/)可直接搜索、下載TSS 文件(BED/GTF)、查看每個 TSS 的 QC 與注釋,下載地址:http://reftss.clst.riken.jp/datafiles/;
  • 提供 UCSC TrackHub(可直接加載到 Genome Browser)便于可視化比對 ChIP-seq、ATAC-seq、RNA-seq 等數(shù)據(jù);
  • 推薦把 refTSS 當(dāng)成“TSS 參考集”來做 promoter-level 定量、啟動子注釋或把 epigenome 數(shù)據(jù)與具體 TSS 關(guān)聯(lián)分析。

小結(jié)

如果你的研究涉及啟動子使用、轉(zhuǎn)錄起始調(diào)控或需要精確定義 TSS,refTSS 是一份高價值的參考資源:它把多種高質(zhì)量證據(jù)整合,提供坐標(biāo)、QC、基因注釋與保守性信息,便于在基因組水平做跨數(shù)據(jù)整合分析。只是要注意:對低豐度或細(xì)胞類型特異的 ncRNAs,目前覆蓋仍然有限——需要結(jié)合你自己的實(shí)驗(yàn)數(shù)據(jù)或等待后續(xù)更新。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容