2020-11-29【文獻(xiàn)閱讀】DNA methylation and evolution of duplicated genes

第一塊

1、題目

DNA甲基化和重復(fù)基因進(jìn)化

DNA methylation and evolution of duplicated genes

2、作者

Thomas E.Keller ,Soojin V.Yi

E-mail: soojinyi@gatech.edu

3、雜志與時(shí)間

Pnas 2014


第二塊

摘要之摘要

DNA甲基化在重復(fù)基因進(jìn)化的不同方面起到非常重要的作用。重復(fù)基因上的甲基化會(huì)隨著時(shí)間逐漸降低。DNA甲基化可能是重復(fù)基因出現(xiàn)功能分化的重要原因。主要表現(xiàn)為外顯子上的甲基化模式差異。在不同組織中重復(fù)基因甲基化差異表現(xiàn)一致,73%的重復(fù)基因,一份比另一份甲基化程度高。DNA甲基化程度還與染色體開放性有關(guān)。高甲基化的重復(fù)基因啟動(dòng)子上有至少兩段序列能夠與sp1轉(zhuǎn)錄因子結(jié)合。這揭示了在重復(fù)基因進(jìn)化方面基因組和表觀基因組之間復(fù)雜的相互作用。


第三塊

1、研究對象

l?重復(fù)基因的dna甲基化模式是如何隨進(jìn)化時(shí)間變化的

l?DNA甲基化是否更容易發(fā)生在年輕的復(fù)制基因上

l?組織特異性的重復(fù)基因dna甲基化如何促進(jìn)重復(fù)基因的功能分化?

l?不同組織見的DNA甲基化模式有何差異

2、研究基因

人類基因組中的重復(fù)基因

3、研究方法

各種統(tǒng)計(jì)學(xué)方法,你學(xué)廢了嗎?二項(xiàng)分布檢驗(yàn),fisher精確性檢驗(yàn),以及t檢驗(yàn),pearson相關(guān)系數(shù)。

(1)重復(fù)基因。通過Fasta36(Pearson WR, Wood T, Zhang Z, Miller W (1997) Comparison of DNA sequences with protein sequences.?Genomics?46(1):24–36.)構(gòu)建重復(fù)基因數(shù)據(jù)庫。蛋白質(zhì)之間兩兩比對,如果e<10, 對于長度大于150aa的序列identity> 30%,長度比較短的超過某一數(shù)值,認(rèn)為這兩個(gè)是一對重復(fù)。然后通過single-linkage clustering單簇聚類,構(gòu)建基因家族。對于每個(gè)基因家族,我們首先使用MUSCLE對齊蛋白序列(46)。使用PAML的yn00模塊兩兩計(jì)算dS后(47),選擇dS最低的基因?qū)?,與MUSCLE重新排列,得到新的dS。我們重復(fù)這個(gè)過程,直到當(dāng)前的基因家族被耗盡。這個(gè)過程從每個(gè)基因家族中產(chǎn)生了關(guān)系最密切的不重疊的基因?qū)?/p>

一共3629個(gè)重復(fù)基因?qū)Α?/p>

(2)DNA甲基化數(shù)據(jù)。10個(gè)組織里的482481個(gè)cpg位點(diǎn)。R包IMA做甲基化分析。劃分轉(zhuǎn)錄起始位點(diǎn)前1500base到第一個(gè)外顯子屬于啟動(dòng)子區(qū);(包括第一外顯子這么做是因?yàn)榱?xí)慣),余下的都是genebody區(qū)?;虮磉_(dá)數(shù)據(jù)用tophat比對。Cufflinks組裝計(jì)算表達(dá)豐度。

(3)DNA甲基化差異計(jì)算。通過除以總和進(jìn)行一個(gè)標(biāo)準(zhǔn)化


(4)DNA甲基化的組織特異性。為了衡量DNA甲基化的組織特異性公式異常復(fù)雜


解釋:Mi代表這部分基因在i組織中的表達(dá)量,Mmax代表這部分基因在所有組織里的最高表達(dá)量,取log2之后計(jì)算比例,再計(jì)算百分比,這個(gè)值越大,代表組織特異性越高,這個(gè)值越小,代表組織特異性越低。

(5)染色質(zhì)開放性,DNAaseI親和度數(shù)據(jù)來源于ENCODE。

(6)mortif富集分析。MEME。限制啟動(dòng)子區(qū)域?yàn)檗D(zhuǎn)錄起始位點(diǎn)上游的1000個(gè)堿基。Repearmasker去重復(fù)。通過產(chǎn)生motif位置這樣一個(gè)先驗(yàn)信息尋找在兩個(gè)數(shù)據(jù)集里top5顯著富集的motif。

4、研究結(jié)果

l?重復(fù)基因進(jìn)化時(shí)間與甲基化程度的關(guān)系


(1)????Ds:同義突變的位點(diǎn)數(shù)量,用來衡量基因的年齡;計(jì)算甲基化程度與ds的Pearson相關(guān)系數(shù);A圖:重復(fù)基因,promoter上甲基化程度與ds大小負(fù)相關(guān);B圖:重復(fù)基因body上甲基化程度與ds無明顯相關(guān);

(2)????Recent:人類和恒河猴分化時(shí)產(chǎn)生的年輕的復(fù)制基因(138對);old:脊椎動(dòng)物全基因組復(fù)制帶來的重復(fù)基因(1062對)。C圖:啟動(dòng)子上,近期重復(fù)基因比早期的甲基化程度更高;D圖L在基因body上,甲基化差別不大。

l?重復(fù)基因不同拷貝上的甲基化分化


甲基化分化與進(jìn)化時(shí)間的關(guān)系。(A)人腦中,越早期的重復(fù)基因甲基化差異程度越大,顯示出正相關(guān)性;(B)計(jì)算10個(gè)組織的TSMI(組織特異性的甲基化索引),發(fā)現(xiàn)也是隨著進(jìn)化時(shí)間顯示出正相關(guān)性。

細(xì)節(jié):相對甲基化分化的指標(biāo)計(jì)算見材料與方法;TSMI提供了10個(gè)組織中DNA甲基化的相對強(qiáng)度的信息,計(jì)算見材料與方法。ds劃分為20個(gè)相等的bin。此處有個(gè)細(xì)節(jié)注意點(diǎn):為什么圖A里面,bin的分布不均勻,這里它應(yīng)該是為了保證ds的每個(gè)子區(qū)間里的數(shù)目相等,所以ds不是均分的。ds=2的位置特別密集,可能是這里發(fā)生了WGD。

l?重復(fù)基因上的差異甲基化與基因表達(dá)上的分化有關(guān)

因此,我們檢查了年輕重復(fù)啟動(dòng)子的重DNA甲基化是否與基因表達(dá)水平降低有關(guān)。重復(fù)基因的平均表達(dá)量與重復(fù)基因的進(jìn)化年齡顯著正相關(guān)(3A)。進(jìn)一步探討拷貝間差異甲基化的程度是否影響到基因表達(dá)的差異。


圖3A:人腦中,近期重復(fù)基因的平均表達(dá)量較低,隨著進(jìn)化年齡增長而提高;(n=1298對重復(fù)基因)。(pearson r = 0.22, p <10-16)圖3B:啟動(dòng)子上的相對甲基化值以及相對表達(dá)量值的相關(guān)度;高甲基化的基因拷貝表達(dá)量通常低于低甲基化的基因拷貝;圖3C:人和小鼠的腦樣本比較(表達(dá)量取自基因芯片數(shù)據(jù));圖4D:胎盤中的比較(表達(dá)量取自rna-seq)。

圖3C和圖3D,采用不同平臺和不同組織的數(shù)據(jù),主要是為了消除實(shí)驗(yàn)平臺差異和組織差異的影響。

這里比較有意思的是,近期重復(fù)基因,表達(dá)水平一般是比較低的,甲基化的水平都很高,這是為了抑制它的表達(dá),作為進(jìn)化的原材料。選擇壓力使得甲基化的差異變大,也就是有一份甲基化維持,另一份甲基化程度降低,維持甲基化的不表達(dá)可能成為家基因,而甲基化較低的基因可以進(jìn)化為新基因。

l?不同組織上絕大多數(shù)重復(fù)基因上甲基化差異表現(xiàn)一致

表觀遺傳修飾是否有細(xì)胞類型和組織特異性。

10個(gè)組織中,73%的重復(fù)基因上表現(xiàn)出一致的模式,一份總是比另一份更高。如果是滿足二項(xiàng)分布,出現(xiàn)這種情況的概率是非常小的。所以并不是一種隨機(jī)現(xiàn)象。

盡管在現(xiàn)實(shí)中,相似的細(xì)胞類型可能表現(xiàn)出相似的表觀遺傳學(xué)特征,但是這一結(jié)果仍然表明在發(fā)育過程中存在著顯著的共一性

l 低甲基化拷貝的啟動(dòng)子上有特定motif的enrich

調(diào)查是否高甲基化拷貝上與低甲基化拷貝的基因組信號有差別,用MEME檢查在持續(xù)高甲基化啟動(dòng)子上的五個(gè)顯著富集的基序,反之亦然。用(MAST)計(jì)算這些motif在不同啟動(dòng)子集合中出現(xiàn)的頻率。

結(jié)論:高甲基化的基因啟動(dòng)子上特定motif的出現(xiàn)頻率并沒有顯著高于低甲基化基因啟動(dòng)子(bonferroni correction)。相反,有兩個(gè)在低甲基化啟動(dòng)子富集的特定motif顯著高于高甲基化。(fisher’s exact test,?p<10-16)這些個(gè)motif能夠結(jié)合鋅指酶家族的sp1,能夠抑制DNA的甲基化??赡芤彩菍?dǎo)致甲基化分化的原因。



細(xì)節(jié):bonferroni correction。

?Fisher精確性檢驗(yàn)

l?表現(xiàn)一致的高/低甲基化基因能形成獨(dú)特的染色體結(jié)構(gòu)

研究一致高的pair中高甲基化拷貝與低甲基化拷貝基因的染色質(zhì)開放度。采用的數(shù)據(jù)集是DNAseI敏感數(shù)據(jù)(從三個(gè)大腦的不同部位)。一共2597對一致的,894對不一致的。是否高甲基化的基因染色質(zhì)更加開放還是更加保守。


圖5A:高甲基化的拷貝染色質(zhì)更加保守;(fisher檢驗(yàn),p小于10-16),而對于不一致的無區(qū)別。圖5B:驗(yàn)證是否有定量的差別。(雙尾t檢驗(yàn),顯著差異,控制樣本量結(jié)果仍然穩(wěn)固)結(jié)論:有力的支持了重復(fù)基因調(diào)控,包括表觀遺傳修飾上不同組織可能受同一套機(jī)制調(diào)控。

l?逆轉(zhuǎn)座子的pair會(huì)帶來更高的甲基化和表達(dá)差異的分化


DNA甲基化分化部分由基因組環(huán)境決定。逆轉(zhuǎn)座子帶來的重復(fù)基因它呈現(xiàn)出更高強(qiáng)度的DNA甲基化分化。這是由于他們更容易受到完全不同的染色體環(huán)境影響。采用的數(shù)據(jù)集是NCBI refseq database中的數(shù)據(jù),并從中鑒定出來了一份拷貝有多個(gè)外顯子,而另一份只有一個(gè)外顯子。確保這是完全由逆轉(zhuǎn)座帶來的純的轉(zhuǎn)座子基因。

圖6A:轉(zhuǎn)座子基因相對于正?;蚣谆町惙只螅p尾t檢驗(yàn),p=0.0008)。errorbar表示95%的置信區(qū)間。Retrogene啟動(dòng)子上有更大的差異分化;圖6B:甲基化差異和表達(dá)差異負(fù)相關(guān)性很強(qiáng),(cor=-0.7,?p=10-4),相對于普通的duplicates(cor=-0.3,?p=10-16)。

5、研究總結(jié)

表觀遺傳修飾對外界信號的可塑性,在早期發(fā)育過程中可能會(huì)由于特定的經(jīng)歷而改變并且影響發(fā)育重編程。然而,進(jìn)化研究揭示DNA甲基化的保守性,在不同物種上面,基因上的甲基化和組蛋白修飾都是保守的。

為了更詳細(xì)地了解dna甲基化分化的時(shí)間和空間動(dòng)態(tài),我們分析了跨越不同進(jìn)化年齡的大量重復(fù)基因。。

(1)近期重復(fù)基因的啟動(dòng)子上高甲基化,早期的較低。持“expression reduction model”,復(fù)制之后的高甲基化會(huì)抑制重復(fù)基因的表達(dá),為突變開始累積提供一個(gè)緩沖時(shí)間。

(2)表觀遺傳沉默可以促進(jìn)功能的分化。甲基化差異與表達(dá)差異顯著相關(guān),這個(gè)結(jié)論即使在不同樣本上依然靠譜。雖然嚴(yán)格來說我們只是提供了甲基化和表達(dá)差異之間存在協(xié)變的證據(jù),但是啟動(dòng)子DNA甲基化和基因表達(dá)之間的因果關(guān)系已經(jīng)得到了很好的證實(shí)。(文獻(xiàn)17: Distribution, silencing potential and evolutionary impact of

promoter DNA methylation in the human genome. Nat Genet 39(4):457–466.)

(3)亮點(diǎn):在多數(shù)組織里面,重復(fù)基因的甲基化分化狀況表現(xiàn)一致。這與表觀遺傳修飾有是組織特異性的觀點(diǎn)相斥,暗示在不同細(xì)胞里面可能重復(fù)基因接收同一套調(diào)控機(jī)制。并且,除了甲基化差異的一致性之外,還有其他的表觀遺傳修飾也有一致性比如染色體的開放性,以及基因組信號上面的差異。發(fā)現(xiàn)低甲基化拷貝有更高的染色質(zhì)開放性,并且會(huì)富集更多的轉(zhuǎn)錄因子抑制DNA甲基化。在轉(zhuǎn)座帶來的重復(fù)基因上差距更明顯,加強(qiáng)了基因組和表觀基因組之間的關(guān)聯(lián)。


6、討論之可為我用

甲基化差異分化的指標(biāo),表達(dá)量差異分化的指標(biāo)。

用ds衡量重復(fù)基因的年齡,分bin。以及,轉(zhuǎn)座帶來的重復(fù)基因。


7、討論之存在問題

基因body上的甲基化與進(jìn)化時(shí)間并沒有顯著關(guān)系。這與在哺乳動(dòng)物中的研究一致。但是在植物當(dāng)中是相關(guān)的。這樣的不一致可能由于甲基化模式不一樣導(dǎo)致。植物基因組中主要發(fā)生的事genebody甲基化。而在哺乳動(dòng)物當(dāng)中,主要是在啟動(dòng)子上發(fā)生甲基化。因?yàn)間enebody上的甲基化會(huì)影響基因可變剪切。

不同類群的生物,Genebody甲基化與基因表達(dá)的相關(guān)關(guān)系有待進(jìn)一步探討。


8、討論之畫餅/其他

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容