要讀的文章太多了。實(shí)在是沒(méi)時(shí)間把所有的感興趣的文章都精讀一遍。那就借助GPT快速總結(jié)一下文章的內(nèi)容。
文章標(biāo)題:Sequence basis of transcription initiation in human genome
DOI:10.1101/2023.06.27.546584
Link: https://www.biorxiv.org/content/10.1101/2023.06.27.546584v1.abstract
微信公眾號(hào)點(diǎn)擊【閱讀原文】即可跳轉(zhuǎn)到論文的頁(yè)面哦
下面是這篇文章的梗概。
Basic Information:
Title: Sequence basis of transcription initiation in human genome (人類(lèi)基因組轉(zhuǎn)錄起始的序列基礎(chǔ))
Authors: Kseniia Dudnyk, Chenlai Shi, Jian Zhou
Affiliation: Lyda Hill Department of Bioinformatics, University of Texas Southwestern Medical Center, Dallas, Texas, United States of America
(美國(guó)德克薩斯州達(dá)拉斯市德克薩斯大學(xué)西南醫(yī)學(xué)中心Lyda Hill生物信息學(xué)部)
Keywords: transcription initiation, sequence patterns, promoter, gene expression, mammalian species
(轉(zhuǎn)錄起始,序列模式,啟動(dòng)子,基因表達(dá),哺乳動(dòng)物物種)
論文簡(jiǎn)要
通過(guò)深度學(xué)習(xí)啟發(fā)的可解釋建模方法,研究人類(lèi)基因組中轉(zhuǎn)錄起始的序列基礎(chǔ),發(fā)現(xiàn)簡(jiǎn)單的規(guī)則可以解釋大多數(shù)人類(lèi)啟動(dòng)子的功能,并揭示了啟動(dòng)子序列與基因表達(dá)變異之間的聯(lián)系,以及在哺乳動(dòng)物物種中序列決定因子的保守性。
背景信息
論文背景
轉(zhuǎn)錄起始是確保基因正常功能的重要過(guò)程,然而,人類(lèi)基因組中決定轉(zhuǎn)錄起始位點(diǎn)的序列模式和規(guī)則的統(tǒng)一理解仍然難以捉摸。
過(guò)去方案
在過(guò)去的幾十年中,已經(jīng)在各種物種中鑒定出了一些核心啟動(dòng)子元素(或模式),包括TATA-box、Initiator (Inr) motif以及幾個(gè)下游模式(MTE、DPE、DPR)。
然而,人類(lèi)啟動(dòng)子通常不具備這些模式,并且許多轉(zhuǎn)錄因子模式出現(xiàn)在啟動(dòng)子附近,但其在啟動(dòng)子功能中的作用尚未明確定義。
論文的Motivation
作者指出,我們對(duì)于大多數(shù)人類(lèi)啟動(dòng)子的序列模式如何決定轉(zhuǎn)錄起始位點(diǎn)的了解仍然不完整。
此外,轉(zhuǎn)錄起始過(guò)程涉及許多因素,甚至一個(gè)堿基對(duì)可能具有多種功能,使得這個(gè)問(wèn)題尤為具有挑戰(zhàn)性。
因此,需要一種系統(tǒng)的方法來(lái)同時(shí)解析多種類(lèi)型的序列依賴(lài)關(guān)系,以解決這個(gè)問(wèn)題。
方法
理論背景
本研究旨在理解人類(lèi)基因組中決定轉(zhuǎn)錄起始位點(diǎn)的序列模式和規(guī)則。
已經(jīng)確定了一些核心啟動(dòng)子元素,但許多人類(lèi)啟動(dòng)子沒(méi)有這些基序。
轉(zhuǎn)錄因子基序在啟動(dòng)子附近的作用也沒(méi)有明確定義。
本研究旨在填補(bǔ)這些知識(shí)空白,提供轉(zhuǎn)錄起始序列的統(tǒng)一模型。
技術(shù)路線
作者開(kāi)發(fā)了一種名為Puffin的深度學(xué)習(xí)模型,用于解釋大多數(shù)啟動(dòng)子序列背后的序列貢獻(xiàn)。
該模型識(shí)別了關(guān)鍵的序列模式和它們的位置特異性效應(yīng)曲線,并通過(guò)實(shí)驗(yàn)證實(shí)了這些結(jié)果。
Puffin還分析了基序貢獻(xiàn)與基因表達(dá)調(diào)控之間的關(guān)系,以及雙向轉(zhuǎn)錄的序列基礎(chǔ)。
該模型的發(fā)現(xiàn)在哺乳動(dòng)物物種中具有高度保守性。
結(jié)果
實(shí)驗(yàn)設(shè)計(jì)
作者開(kāi)發(fā)了序列模型,以解析轉(zhuǎn)錄起始的序列基礎(chǔ)。
這些模型通過(guò)訓(xùn)練來(lái)預(yù)測(cè)基于堿基的轉(zhuǎn)錄起始信號(hào),并能夠分析轉(zhuǎn)錄起始位點(diǎn)的基序組成、方向性、調(diào)控特性和序列規(guī)則保守性。
模型使用實(shí)驗(yàn)測(cè)量結(jié)果進(jìn)行驗(yàn)證,并與數(shù)據(jù)呈高度相關(guān)。
實(shí)驗(yàn)結(jié)果
Puffin模型基于深度學(xué)習(xí)模型Puffin-D捕獲的序列依賴(lài)性分析設(shè)計(jì)而成。
它計(jì)算學(xué)習(xí)到的序列模式的堿基分辨率激活分?jǐn)?shù),并計(jì)算它們對(duì)轉(zhuǎn)錄起始的位置特異性效應(yīng)。
該模型學(xué)習(xí)三種類(lèi)型的序列模式,以捕獲不同類(lèi)型的序列依賴(lài)性:基序、三核苷酸序列模式和啟動(dòng)子序列模式。
Puffin模型學(xué)習(xí)到了對(duì)轉(zhuǎn)錄起始具有位置特異性效應(yīng)的三種序列模式。
這些模式包括基序、啟動(dòng)子和三核苷酸。
該模型通過(guò)使用少量的序列模式和簡(jiǎn)單的加法/乘法規(guī)則來(lái)預(yù)測(cè)基于堿基的轉(zhuǎn)錄起始信號(hào)。
序列模式的位置特異性效應(yīng)曲線表示了基序在與基序相關(guān)位置的激活和抑制效應(yīng)。
Puffin模型穩(wěn)健地發(fā)現(xiàn)了十個(gè)基序,其中一些與已知基序相匹配。這些基序可以分為兩組:具有方向性的基序和雙向基序。
具有方向性的基序包括TATA、YY1、U1 snRNP和Long Initiator (Long Inr)。
雙向基序包括SP、NFY、ETS、ZNF143、NRF1和CREB。
基序的位置特異性效應(yīng)曲線顯示出不同的模式,可能反映了它們的作用機(jī)制。
U1 snRNP基序?qū)俶RNA有正效應(yīng),表明其在轉(zhuǎn)錄起始后產(chǎn)生影響。
Long Initiator基序與啟動(dòng)子序列模式具有相似性。
雙向基序預(yù)計(jì)能夠結(jié)合特定的轉(zhuǎn)錄因子,并在基序兩側(cè)的兩條鏈上激活轉(zhuǎn)錄。
啟動(dòng)子序列模式命名為Short Inr和Long Inr,調(diào)節(jié)局部轉(zhuǎn)錄起始的傾向性。
Long Inr是Short Inr的擴(kuò)展版本,包含下游核心啟動(dòng)子元素。