人類基因組中豐富的遺傳變異不是在蛋白質(zhì)編碼基因中發(fā)現(xiàn)的,而是在非蛋白質(zhì)編碼區(qū)域內(nèi)發(fā)現(xiàn)的。鑒于只有1%的基因組編碼蛋白質(zhì),這并不奇怪。直到最近,確定遺傳變異對性狀變異和疾病的影響的努力集中于編碼區(qū)域。然而,全基因組關(guān)聯(lián)研究(GWAS)的結(jié)果表明,性狀和疾病相關(guān)變體通常是調(diào)節(jié)變體,例如在非編碼區(qū)中發(fā)現(xiàn)的表達(dá)數(shù)量性狀基因座(eQTL)。這些結(jié)果促使人們努力了解非編碼,監(jiān)管變異的功能作用。迄今為止的努力依賴于表征變體和基因表達(dá)之間的關(guān)聯(lián)。然而,這個協(xié)會本身就是 不會揭示非編碼變體影響基因表達(dá)的完整功能機制。因此,最近的努力開始表征許多分子表型,例如轉(zhuǎn)錄因子(TF)結(jié)合,組蛋白修飾和染色質(zhì)狀態(tài),以確定調(diào)節(jié)變體影響基因表達(dá)的機制。
一期,四篇論文
在11月8日出版的“科學(xué)”雜志上,發(fā)表了三篇論文,闡述了非編碼遺傳變異對TF結(jié)合,組蛋白修飾和染色質(zhì)狀態(tài)(即活性與非活性增強子狀態(tài))的作用。第一項研究由日內(nèi)瓦大學(xué)的Dermitzakis實驗室完成。他們使用染色質(zhì)免疫沉淀和測序(ChIP-Seq)分析了來自兩個親子三聯(lián)體的淋巴母細(xì)胞系(LCL)中的三種TF,RNA聚合酶II(Pol II)和五種組蛋白修飾[1]。第二個是由最近搬到斯坦福的Pritchard實驗室和芝加哥大學(xué)的吉拉德實驗室完成的。他們確定了影響四種組蛋白修飾變異的遺傳變異和十種不相關(guān)的約魯巴LCL的Pol II占據(jù)[2]。第三項研究由斯坦福大學(xué)的斯奈德實驗室完成。他們使用RNA-Seq和ChIP-Seq對來自不同群體的19種LCL中的四種組蛋白修飾和兩種DNA結(jié)合因子的染色質(zhì)狀態(tài)變化的遺傳變異進(jìn)行了表征[3]。這項工作是該研究的第一作者M(jìn)aya Kasowski最近發(fā)表的CEHG Evolgenome演講的主題。最后,發(fā)表在11月28日出版的“自然”雜志上的第四項研究由加州大學(xué)圣地亞哥分校的玻璃實驗室完成。他們使用ChIP-Seq描述了兩種小鼠品系之間天然遺傳變異對參與細(xì)胞分化的兩種TF(PU.1和C /EBPα)結(jié)合的影響[4]。在這篇文章中,我將主要分析Pritchard Lab提供的工作,但我強烈建議閱讀所有四篇論文,以了解表征非編碼變異的挑戰(zhàn)以及可用的方法。
Motivation
這四項研究旨在回答調(diào)節(jié)變異如何影響基因表達(dá)的一般問題。它們表征不同的分子表型,如組蛋白修飾和TF結(jié)合,以了解非編碼變體的作用機制。Pritchard實驗室的研究重點是四種組蛋白修飾(三種活性和一種抑制性:分別為H3K4me3,H3K4me1,H3K27ac和H3K27me3)和Pol II占據(jù)。

組蛋白修飾101
組蛋白修飾是指向包含核小體的組蛋白的尾部上的特定氨基酸添加化學(xué)基團(tuán)如甲基或乙?;?。這些化學(xué)基團(tuán)被稱為組蛋白標(biāo)記。它們可以提供廣泛的功能,但通常它們與染色質(zhì)區(qū)域的可及性相關(guān)。例如,組蛋白3(H3K4me3)的賴氨酸4的三甲基化與染色質(zhì)可及性和基因活化增加有關(guān)。另一方面,啟動子處抑制標(biāo)記H3K27me3(組蛋白3的賴氨酸27的三甲基化)水平的增加與基因失活有關(guān)。
使用ChIP-Seq以高通量方式測量組蛋白標(biāo)記水平。簡而言之,靶向目標(biāo)標(biāo)記的抗體用于下調(diào)修飾的基因組區(qū)域。然后對這些免疫沉淀區(qū)域進(jìn)行測序以確定哪些基因組區(qū)段被修飾以及在何種水平上。該過程通常需要大量的細(xì)胞(大約10 ^ 7)。因此,修飾水平在某種程度上是群體水平測量。對ChIP-Seq數(shù)據(jù)的分析通常涉及測試具有比預(yù)期偶然更多讀數(shù)的基因組區(qū)域。這些區(qū)域的范圍從200bp到1000bp或更多,被稱為代表高于基因組背景的修飾水平的峰。像H3K27me3這樣的抑制性標(biāo)記傾向于具有寬峰區(qū)域,而像H3K4me3這樣的激活標(biāo)記可以具有更緊密的峰值。
由于修飾水平代表對細(xì)胞群的測量,并且組蛋白殘基可具有多個修飾,因此基因組區(qū)域可顯示多個標(biāo)記的證據(jù)。這些標(biāo)記在區(qū)域上的組合可以標(biāo)記該區(qū)域的功能。例如,具有高水平的H3K27ac和高比率的H3K4me1與H3K4me3的區(qū)域可以標(biāo)記活性增強子區(qū)域。到目前為止,這些標(biāo)記在個體之間的變異與這種變異的遺傳原因尚未被描述。此外,這些商標(biāo)的因果影響仍然未知。他們是直接改變基因表達(dá)還是通過基因調(diào)控改變它們?因此,本研究的兩個指導(dǎo)性問題是:
1.哪些遺傳變異影響組蛋白修飾?
2.這些修飾是“基因調(diào)控的原因還是后果?”
組蛋白修飾的變異,一個真正的whodunit
作者首先尋求識別和表征影響組蛋白標(biāo)記的遺傳變異。他們生成了四個組蛋白標(biāo)記的ChIP-Seq數(shù)據(jù)和來自十個不相關(guān)的約魯巴個體的LCL中的Pol II,這些個體先前被基因分類為1000個基因組項目的一部分。對諸如eQTL研究等調(diào)節(jié)變體的類似研究需要大樣本量來檢測通常位于基因之外的調(diào)節(jié)變體的影響。與eQTL研究不同,組蛋白標(biāo)記覆蓋相當(dāng)廣泛的區(qū)域,通常包含因果調(diào)節(jié)變異。因此,作者可以使用較小的樣本量,并仍然有信心詢問因果調(diào)節(jié)SNP的影響。作者開發(fā)了一項統(tǒng)計檢驗,模擬個體之間的總閱讀深度和個體內(nèi)單倍型之間的等位基因失衡,以增加檢測順式QTL的能力(即影響組蛋白標(biāo)記的變異和基因組附近的Pol II占據(jù))。使用這種方法,他們確定了超過1200個不同的QTL,用于組蛋白標(biāo)記和Pol II占用(FDR 20%)。
然后,作者分析這些組蛋白標(biāo)記和Pol II QTL以確定這些變體與其他已知調(diào)節(jié)變體的重疊。假設(shè)是影響基因表達(dá)的調(diào)節(jié)變體將對不同的分子表型產(chǎn)生影響。因此,影響組蛋白標(biāo)記和Pol II的變體應(yīng)顯示與已知調(diào)節(jié)變體(例如eQTL和DNase I靈敏度QTL(dsQTL))的顯著重疊。DNase I靈敏度是染色質(zhì)可及性的量度,具有更高的靈敏度,與更高的可及性相關(guān)。在之前的兩項研究中,Pritchard實驗室在大約75個Yoruban LCL樣本中繪制了eQTL和dsQTL,我也建議閱讀[5,6]。他們的分析揭示了dsQTL的低p值的富集,并且在較小程度上,當(dāng)作為組蛋白標(biāo)記和Pol II QTL測試時,eQTL被富集。此外,作者觀察到dsQTL和eQTL的多種分子表型的協(xié)調(diào)變化。例如,對于更多DNase I敏感基因型,在dsQTL處觀察到更高水平的三種組蛋白活性標(biāo)記。在eQTLs,具有高表達(dá)基因型的個體的H3K4me3,H3K27ac和Pol II水平更高。這些結(jié)果表明,非編碼調(diào)節(jié)變體影響多種分子表型,范圍從染色質(zhì)可及性和轉(zhuǎn)錄到組蛋白修飾。作者提供了強有力的證據(jù)來回應(yīng)他們的第一個指導(dǎo)性問題,即非編碼調(diào)控多態(tài)性與組蛋白標(biāo)記和Pol II的變異相關(guān)。對于更多的DNase I敏感基因型,在dsQTL處觀察到更高水平的三種組蛋白活性標(biāo)記。在eQTLs,具有高表達(dá)基因型的個體的H3K4me3,H3K27ac和Pol II水平更高。這些結(jié)果表明,非編碼調(diào)節(jié)變體影響多種分子表型,范圍從染色質(zhì)可及性和轉(zhuǎn)錄到組蛋白修飾。作者提供了強有力的證據(jù)來回應(yīng)他們的第一個指導(dǎo)性問題,即非編碼調(diào)控多態(tài)性與組蛋白標(biāo)記和Pol II的變異相關(guān)。對于更多的DNase I敏感基因型,在dsQTL處觀察到更高水平的三種組蛋白活性標(biāo)記。在eQTLs,具有高表達(dá)基因型的個體的H3K4me3,H3K27ac和Pol II水平更高。這些結(jié)果表明,非編碼調(diào)節(jié)變體影響多種分子表型,范圍從染色質(zhì)可及性和轉(zhuǎn)錄到組蛋白修飾。作者提供了強有力的證據(jù)來回應(yīng)他們的第一個指導(dǎo)性問題,即非編碼調(diào)控多態(tài)性與組蛋白標(biāo)記和Pol II的變異相關(guān)。這些結(jié)果表明,非編碼調(diào)節(jié)變體影響多種分子表型,范圍從染色質(zhì)可及性和轉(zhuǎn)錄到組蛋白修飾。作者提供了強有力的證據(jù)來回應(yīng)他們的第一個指導(dǎo)性問題,即非編碼調(diào)控多態(tài)性與組蛋白標(biāo)記和Pol II的變異相關(guān)。這些結(jié)果表明,非編碼調(diào)節(jié)變體影響多種分子表型,范圍從染色質(zhì)可及性和轉(zhuǎn)錄到組蛋白修飾。作者提供了強有力的證據(jù)來回應(yīng)他們的第一個指導(dǎo)性問題,即非編碼調(diào)控多態(tài)性與組蛋白標(biāo)記和Pol II的變異相關(guān)。
TF和方向性問題
然后,作者轉(zhuǎn)而解決這些商標(biāo)的因果關(guān)系問題。為此,他們分析了TF結(jié)合位點的遺傳變異。主要假設(shè)是改變TFBS的調(diào)節(jié)變體將修飾TF結(jié)合,這將導(dǎo)致附近的組蛋白標(biāo)記和Pol II水平的變化。如果是這種情況,那么組蛋白標(biāo)記的變化是TF結(jié)合位點強度的結(jié)果。另一方面,如果這些標(biāo)記是因果關(guān)系,則不期望TF結(jié)合位點的多態(tài)性與這些標(biāo)記的變化顯示出強烈的相關(guān)性。
為了驗證他們的假設(shè),作者檢查了~11.5K TF結(jié)合位點,其10個個體中至少有1個具有雜合子多態(tài)性。他們計算每個個體內(nèi)多態(tài)性TF結(jié)合位點的兩個等位基因之間的位置權(quán)重矩陣(PWM)得分的變化。然后,他們測試PWM的這種變化與附近雜合位點的ChIP-Seq讀數(shù)的等位基因失衡之間的顯著關(guān)聯(lián)。該想法是,如果變體改善(或破壞)TF結(jié)合位點處的一個等位基因的TF結(jié)合,則相同等位基因附近的活性組蛋白標(biāo)記將增加(或減少)。抑制性組蛋白標(biāo)記(在本例中為H3K27me3)預(yù)計會產(chǎn)生相反的反應(yīng)。實際上,當(dāng)他們應(yīng)用他們的測試時,他們發(fā)現(xiàn)活躍標(biāo)記與抑制標(biāo)記的負(fù)相關(guān)顯著正相關(guān)。該結(jié)果支持由于TF結(jié)合和基因調(diào)節(jié)而改變組蛋白標(biāo)記的假設(shè)。但是,這個結(jié)果并不排除其他可能性。組蛋白標(biāo)記仍然可以在TF結(jié)合的建立中起到因果作用。換句話說,TF結(jié)合和組蛋白標(biāo)記之間的關(guān)系不必是單向的。此外,有證據(jù)表明長的非編碼RNA可能在組蛋白標(biāo)記的建立和調(diào)節(jié)中起作用。
dsQTL和eQTL,染色質(zhì)上的匹配
在他們的最終分析中,作者研究了同樣是eQTL的dsQTL。由于這些變體與遠(yuǎn)端調(diào)節(jié)區(qū)域的基因表達(dá)和染色質(zhì)可及性相關(guān)(距離相關(guān)TSS> 5kb),因此作者可以將調(diào)節(jié)區(qū)域指定給特定基因。同時存在dsQTL和eQTL的變體可能破壞遠(yuǎn)端調(diào)節(jié)區(qū)域。除了破壞調(diào)節(jié)區(qū)的可及性之外,該變體還擾亂受調(diào)節(jié)區(qū)影響的基因的表達(dá)。例如,變體可以降低增強子區(qū)域的染色質(zhì)可及性,從而降低增強子的活性組蛋白標(biāo)記水平。這種降低的增強子活性可導(dǎo)致附近基因的轉(zhuǎn)錄減少,并且同樣降低該基因的活性標(biāo)記水平。因此,指導(dǎo)該分析的假設(shè)是,影響遠(yuǎn)端調(diào)節(jié)區(qū)域的組蛋白標(biāo)記的變體將對調(diào)節(jié)區(qū)域控制下的基因的組蛋白標(biāo)記具有協(xié)同作用。作者檢查了調(diào)控區(qū)域及其相關(guān)轉(zhuǎn)錄起始位點(TSS)中ChIP-Seq讀數(shù)的等位基因失衡。實際上,作者觀察到增加DNase I敏感性的變體在調(diào)節(jié)區(qū)和TSS的活性標(biāo)記上具有顯著的陽性等位基因不平衡。壓制商標(biāo)的情況恰恰相反。該結(jié)果再次強調(diào)了基因調(diào)控的復(fù)雜性和非編碼變異的影響。調(diào)節(jié)變體不僅影響附近的不同分子表型,它們還可以指導(dǎo)遠(yuǎn)端基因座的變化。正如作者所說,遠(yuǎn)端區(qū)域之間組蛋白標(biāo)記的這種協(xié)調(diào)變化可能反映了染色質(zhì)的3D組織。影響遠(yuǎn)端調(diào)節(jié)區(qū)域和基因之間染色質(zhì)環(huán)狀相互作用的調(diào)節(jié)變體可能導(dǎo)致基因和調(diào)節(jié)區(qū)域的活性水平發(fā)生變化。
結(jié)論
本文提供了明確的證據(jù),表明調(diào)節(jié)變異具有非常復(fù)雜的影響,同時影響多個區(qū)域的多種多樣的分子表型。這種復(fù)雜性意味著調(diào)節(jié)變體作用于基因調(diào)控的潛在多種多樣的機制。作者開始尋找這些機制之一的證據(jù),即TF結(jié)合位點的擾動。他們首先表明組蛋白修飾的變異具有強烈的遺傳基礎(chǔ),并且影響這些標(biāo)記的多態(tài)性與已知的調(diào)節(jié)變體如eQTL重疊。然后,他們表明TF結(jié)合位點的多態(tài)性與組蛋白標(biāo)記的變化相關(guān),為這些標(biāo)記與基因調(diào)控之間的關(guān)系提供了方向性的證據(jù)。在本質(zhì)上,他們的結(jié)果表明,組蛋白修飾至少部分地通過TF結(jié)合進(jìn)行。最后,他們發(fā)現(xiàn)調(diào)節(jié)變異可能對遠(yuǎn)端區(qū)域的分子表型產(chǎn)生影響。
我發(fā)現(xiàn)這篇論文以及前面提到的其他三篇文章都非常有趣。我認(rèn)為這些論文表明我們對基因調(diào)控的理解仍然非常簡單。隨著ChIP-Seq和DNase-Seq等高通量分子檢測的出現(xiàn),我們可以開始詢問調(diào)節(jié)變異對許多表型的復(fù)雜作用。在這樣做時,提出有關(guān)方向性的問題是最主要的。一組給定的分子表型如何相關(guān)?這些表型是否代表基因組功能的原因或結(jié)果?基因調(diào)控的不同元素如何共同構(gòu)建復(fù)雜的表型?