scDMV: 一種用于處理單細(xì)胞二硫化物測序數(shù)據(jù)的DNA甲基化變異的零–一通脹β混合模型。原文:“scDMV: a zero–one inflated beta mixture model fo...

摘要

動機(jī):?

?????單細(xì)胞亞硫酸鹽測序(scBS-seq)方法的使用,允許對DNA甲基化模式進(jìn)行精確的單細(xì)胞級別分析,能夠識別稀有的種群,揭示細(xì)胞特異的表觀遺傳變化,并提高差異甲基化分析的精確度。然而,由于限制的測序深度和覆蓋范圍,數(shù)據(jù)稀疏和零和一的過多,使得使用scBS-seq進(jìn)行差異甲基化檢測時,精確度準(zhǔn)確率經(jīng)常降低。因此,急需一種創(chuàng)新的差異甲基化分析方法,有效處理這些數(shù)據(jù)特性并提高識別準(zhǔn)確率。

結(jié)果:

? ??結(jié)果:我們提出了一種名為scDMV的新型貝塔混合方法,用于分析單細(xì)胞亞硫酸鹽測序數(shù)據(jù)中的甲基化差異,該方法有效地處理了過多的零和一,并能適應(yīng)低輸入測序。我們的大量模擬研究表明,scDMV方法在敏感性、準(zhǔn)確性和控制假陽性率方面都優(yōu)于其他幾種方法。此外,在實際數(shù)據(jù)應(yīng)用中,我們觀察到即使在低輸入樣本中,scDMV在識別差異甲基化區(qū)域方面也表現(xiàn)出更高的精度和敏感性。另外,scDMV揭示了使用單細(xì)胞全基因組測序數(shù)據(jù)進(jìn)行GO富集分析時,其他方法常常忽視的重要信息。


介紹

????????表觀遺傳學(xué)研究的是與DNA序列變化無關(guān)的可遺傳的基因表達(dá)變化。關(guān)鍵的表觀遺傳修飾,如DNA甲基化、組蛋白修飾、啟動子-增強(qiáng)子相互作用和非編碼RNA調(diào)控,都起著至關(guān)重要的作用,可能導(dǎo)致疾病的發(fā)生。在這些修飾中,由于DNA甲基化的可逆性和其作為藥物靶點的潛力,它已經(jīng)受到了大量的關(guān)注。在哺乳動物中,DNA甲基化主要發(fā)生在CpG位點,那里的胞嘧啶的第五個碳原子被DNA甲基轉(zhuǎn)移酶甲基化,形成5-甲基胞嘧啶。CpG位點可以分布在整個DNA序列中,也可以集中在位于調(diào)控區(qū)域的CpG島上。理解DNA甲基化對闡明其對細(xì)胞發(fā)育、疾病進(jìn)展和基因調(diào)控的影響至關(guān)重要。

? ??????分析樣本間的DNA甲基化差異對于理解疾病發(fā)病機(jī)制、預(yù)防疾病和診斷疾病至關(guān)重要。常用的兩種甲基化差異分析方法分別是差異甲基化位點(DMS)分析和差異甲基化區(qū)域(DMR)分析。DMS分析側(cè)重于單一樣本內(nèi)的個別甲基化位點,而與基因表達(dá)的關(guān)聯(lián)較小。相比之下,DMR分析考慮的是由一個或多個DMS組成的連續(xù)區(qū)域,并允許在多個樣本組之間進(jìn)行比較,從而提供對基因表達(dá)更多的理解。

? ??????近年來,用于識別差異甲基化的基于測序的方法有所增加。這些方法包括多種方法,如邏輯回歸、貝塔-二項分布(beta-binomial distribution)、隱馬爾可夫模型、香農(nóng)熵和二元分割平滑(binary segmentation)?,F(xiàn)有的算法包括“eDMR”,“RADMeth”,“BSmooth”和"CGmapTools"。

? ?????當(dāng)依賴來自多個細(xì)胞的平均數(shù)據(jù)時,使用傳統(tǒng)策略研究DNA甲基化多樣性的能力是有限的。單細(xì)胞全基因組亞硫酸鹽測序(Single-cell whole-genome bisulfite sequencing)(scWGBS 和 scRRBS)已經(jīng)成為評估單個細(xì)胞和稀有細(xì)胞類型的DNA甲基化多樣性的有前景的方法。然而,單細(xì)胞DNA甲基化測序數(shù)據(jù)的稀疏性和獨特特性(包括低覆蓋率和過多的零和一(例如在2.4節(jié)的真實例子中,0和1的甲基化率之和超過0.9)),使得傳統(tǒng)的統(tǒng)計方法不充分。因此,需要新的方法來進(jìn)行使用scBS-seq數(shù)據(jù)的差異甲基化分析。

????????在這篇文章中,我們提出了一種名為scDMV((zero–one inflated beta mixture model)的策略,用于分析單細(xì)胞亞硫酸鹽數(shù)據(jù)。我們假定,根據(jù)表示甲基化率的細(xì)胞和區(qū)域特異效應(yīng)的條件,scBS-seq數(shù)據(jù)遵循二項分布。此外,我們使用零一通脹的貝塔分布來模擬效應(yīng)分布,以解釋零和一的過度存在,以及在scBS-seq數(shù)據(jù)中觀察到的過度離散化。我們采用EM算法來估計模型參數(shù),并利用Wald檢驗來進(jìn)行差異甲基化分析。我們通過包括模擬實驗和真實數(shù)據(jù)應(yīng)用在內(nèi)的數(shù)值研究,將scDMV的性能與兩種現(xiàn)有的方法,methylpy和CGmapTools進(jìn)行了比較。結(jié)果表明,scDMV的性能優(yōu)越,特別是在捕獲單細(xì)胞全基因組測序數(shù)據(jù)進(jìn)行GO富集分析的重要信息方面。

2.材料與方法

????觀察到的scBS-seq數(shù)據(jù)由一個集合表示,記為


n_{gij} 表示從第j個區(qū)域的g類型的第i個細(xì)胞獲得的總讀取,x_{gij} 表示從第j個區(qū)域的g類型的第i個細(xì)胞獲得的甲基化讀取,g對應(yīng)于細(xì)胞類型;N_{g} 表示屬于g類型的細(xì)胞數(shù),i表示樣本或細(xì)胞,j對應(yīng)于不同的CG區(qū)域,M表示考慮的CG段的總數(shù)。

? ??????設(shè)p_{gj} 表示在第j區(qū)域?qū)儆趃類型的細(xì)胞的甲基化率。我們將Pg定義為g類型細(xì)胞的甲基化率向量,由P_{g} = (p_{g1},...,p_{gM})^T給出。差異甲基化分析(differential methylation analysis)的主要目標(biāo)是檢驗兩個甲基化率向量之間的平均甲基化水平是否相等的零假設(shè)( null hypothesis)是否成立。替代假設(shè)(alternative hypothesis),記為H1,暗示存在特定區(qū)域,記為m \in (1,...,M ),其中兩種細(xì)胞類型的平均甲基化率不同。

????為了處理這個假設(shè)檢驗問題,我們首先構(gòu)造一個檢驗統(tǒng)計量。隨后,我們開發(fā)了一種識別DMR集的程序。

2.1制定模型和測試統(tǒng)計量

? ??????假定總讀數(shù)n_{gij},有理由假設(shè)甲基化讀數(shù)x_{gij}遵循二項分布,可以表示為:

其中p_{gj}代表區(qū)域j中g(shù)類型細(xì)胞的甲基化率。值得注意的是,細(xì)胞的甲基化率顯示出顯著的異質(zhì)性( heterogeneity),通常以過多的零和一為特征。為了捕捉這種變異性,我們將p_{gj}建模為隨機(jī)效應(yīng)( random effect),并定義其均值為E_{p_{gj}} = \mu_{gj}。對于每個區(qū)域j,我們測試假設(shè)

????觀察到單個細(xì)胞中的DNA甲基化率pgj傾向于在0和1之間集中,我們假設(shè)pgj遵循0-1通脹的混合貝塔分布。這個分布可以如下特征化:

在這個模型中,評估兩種樣本類型之間的差異甲基化表達(dá)歸結(jié)為檢查:

????????重要的是要強(qiáng)調(diào),與兩種樣本類型相關(guān)的四個參數(shù)可以在CG區(qū)域j中變化(vary across CG)。現(xiàn)在,讓我們繼續(xù)推導(dǎo)出估計這些參數(shù)的算法。對于給定的g和j值,我們計算似然函數(shù),并使用EM算法估計參數(shù)\theta_g = (\pi_{gj0},\pi_{gj1},\alpha_{gj},\beta_{gj} ).。信息矩陣I(\pi_{gj0},\pi_{gj1},\alpha_{gj},\beta_{gj})的形式為

以及g類細(xì)胞在區(qū)域j中的甲基化率的期望值

在零假設(shè)下,得到的Wald檢驗統(tǒng)計量為


漸近的遵循標(biāo)準(zhǔn)正態(tài)分布??偟膩碚f,基于等式(1)導(dǎo)出了檢驗統(tǒng)計量,圖1中的流程圖描繪了scDMV方法。


2.2?DMR 識別

????接下來,我們評估所有M個區(qū)域以得到M個P值。P值低于指定截止值的區(qū)域被認(rèn)為顯著不同,并被分類為DMR。隨后,常用的方法利用樣本間的DNA甲基化差異精化最初獲得的DMR,以提高準(zhǔn)確性。在我們的研究中,使用加權(quán)DNA甲基化來計算甲基化程度差異,記為D,該差異在每個區(qū)域內(nèi)的兩種樣本之間存在。然后為D設(shè)置一個截止值,最后的DMR必須滿足D超過截止值的條件。通常,模型識別的DMR是那些P值低于P值截止值和D超過D截止值的區(qū)域。

2.3 仿真研究

????現(xiàn)有的方法,如CGmapTools和methylpy,是專門設(shè)計用于分析由大量細(xì)胞形成的細(xì)胞群之間的差異的,這些細(xì)胞使用的是傳統(tǒng)的亞硫酸鹽測序技術(shù)。因此,它們可能不能直接應(yīng)用于單細(xì)胞數(shù)據(jù)。相比之下,我們在這項研究中提出的新的統(tǒng)計方法,稱為scDMV,考慮到了scBS-seq測序數(shù)據(jù)中深度和覆蓋面低的特定特性。為了評估和比較CGmapTools、methylpy和新的scDMV方法在識別單細(xì)胞DNA甲基化數(shù)據(jù)中的DMR方面的性能,我們基于模擬的scBS-seq數(shù)據(jù)進(jìn)行了幾次模擬實驗。

????????我們生成了一個由73個樣本組成的模擬數(shù)據(jù)集,其中兩種明顯的細(xì)胞類型的樣本大小分別為48和25。每個樣本包括10000個位點,其中每個位點的甲基化讀取由x表示,總讀取由n表示。數(shù)據(jù)集分為1000個區(qū)域,每10個連續(xù)位點形成一個區(qū)域。數(shù)據(jù)模擬過程涉及三個主要步驟。首先,我們?yōu)閮煞N樣本類型分配四個參數(shù)的值(p10; p11; a1; b1)和(p20; p21; a2; b2)。其次,我們根據(jù)實際的總閱讀數(shù)獲得模擬的總閱讀數(shù)。最后,根據(jù)基礎(chǔ)理論模型生成模擬的甲基化閱讀數(shù)。

? ??????為了說明生成模擬數(shù)據(jù)的過程,我們以一個特定的區(qū)域為例。首先,我們通過從真實總讀取數(shù)據(jù)的每一列中隨機(jī)抽取10個非零值,生成模擬的總讀取數(shù)據(jù),記為n。然后,根據(jù)前面提到的先驗分布生成該區(qū)域的甲基化讀取x。按照這個程序,我們獲得了特定區(qū)域的模擬數(shù)據(jù)。

? ??????上述過程重復(fù)1000次,產(chǎn)生1000個區(qū)域的模擬數(shù)據(jù)。每個區(qū)域的甲基化讀取x和總讀取n數(shù)據(jù)分別存儲在單獨的列表中,結(jié)果得到1000個列表的集合。然后這1000個列表被合并成一個綜合列表,代表最后的模擬數(shù)據(jù)。模擬數(shù)據(jù)中0和1處的甲基化率之和是0.66。

? ??????進(jìn)行了兩種類型的模擬實驗:差異實驗(difference experiments)和無差異實驗(indifference experiments)。在差異實驗中,參數(shù)值(p10; p11; a1; b1)和(p20; p21; a2; b2)特意設(shè)置為不同,產(chǎn)生了模擬數(shù)據(jù),展現(xiàn)了組間的差異。另一方面,在無差異實驗中,(p10; p11; a1; b1)和(p20; p21; a2; b2)被設(shè)定為完全相同,產(chǎn)生了沒有組差異的模擬數(shù)據(jù)。對于每種類型的實驗,都模擬了五組實驗數(shù)據(jù)。

? ??????為了評估scDMV方法在識別DMR方面的比較準(zhǔn)確性,我們進(jìn)行了模擬實驗,并將其性能與methylpy和CGmapTools進(jìn)行了比較。樣本組的區(qū)域平均甲基化水平被定義為甲基化讀取總和與該區(qū)域內(nèi)所有樣本中所有位點的總讀取總和的比率。甲基化水平的差異,記為D,表示了同一區(qū)域內(nèi)兩個樣本組之間的區(qū)域平均甲基化水平的差異。對于每個方法,分別為每個區(qū)域計算P值和D值。我們采用了不同的P值(0.001,0.005,0.01和0.05)和D(0,0.1,0.15和0.2)截止值。滿足P值不超過指定截止值和D超過定義閾值的區(qū)域被認(rèn)為是識別出的DMR。

2.4 真實數(shù)據(jù)應(yīng)用

????為了探索早期胚胎發(fā)育期間的甲基化模式,我們在一個公開可用的數(shù)據(jù)集(Benjamini和Hochberg,1995)上使用了scDMV方法,并將其結(jié)果與兩種替代方法進(jìn)行了比較。

2.4.1 真實數(shù)據(jù)實驗設(shè)計

????????這個數(shù)據(jù)集(GEO ID: GSE81233)包括來自兩個連續(xù)發(fā)育階段的73個樣本,包括25個4-細(xì)胞樣本和48個8-細(xì)胞樣本。進(jìn)行了組內(nèi)和組間實驗。在組間實驗中,涉及到有差異的樣本,我們使用所有的73個樣本來識別25個4-細(xì)胞胚胎樣本和48個8-細(xì)胞胚胎樣本之間的DMR。通過應(yīng)用不同的P值截止值和不同的DNA甲基化水平差異(D)閾值,獲得了三種方法的實驗結(jié)果。在組內(nèi)實驗中,樣本之間沒有差異,我們從48個8-細(xì)胞胚胎樣本中選擇了40個,將它們平均分為兩組來識別DMR。由于同一發(fā)育階段的樣本的整體甲基化模式傾向于保持穩(wěn)定(Benjamini和Hochberg,1995),所以這兩組之間不應(yīng)存在甲基化的個體差異。因此,在這種情況下識別出的DMR可以被認(rèn)為是假陽性DMR。

? ??????為了提高識別DMR的準(zhǔn)確性,我們進(jìn)行了數(shù)據(jù)預(yù)處理和過濾程序。首先,我們評估每個位點的顯著性,以確定其對區(qū)域的影響。被排除的位點包括丟失值超過總樣本數(shù)50%的位點。位點過濾后,將數(shù)據(jù)劃分為最大長度為300bp的區(qū)域,確保每個區(qū)域包含至少3個位點。按照上述數(shù)據(jù)組織方法,每個區(qū)域由兩個列表表示:一個用于總閱讀數(shù)據(jù),另一個用于甲基化閱讀數(shù)據(jù)。每條染色體的所有區(qū)域都存儲為一個名為“testRegion”的集合列表,從而為每條染色體形成一個列表。隨后,使用“testRegion”中的數(shù)據(jù)進(jìn)行使用scDMV方法的實驗。在實驗過程中,我們采用加權(quán)方法計算區(qū)域甲基化水平。我們對每條染色體執(zhí)行實驗,為每個區(qū)域生成P值和D值。最后,我們應(yīng)用之前定義的截止值來相應(yīng)地過濾區(qū)域。

????在最后一步,我們將兩個實驗的結(jié)果合并,進(jìn)行全面的分析和比較三種方法,從而評估scDMV方法在識別DMR方面的性能。

2.4.2 DMR的注釋

? ??????通過ChIPSeeker R包(版本1.24.0)(Yu et al. 2015),基于它們在人類基因組(hg19)中對應(yīng)的區(qū)域,對8細(xì)胞階段和4細(xì)胞階段之間確定的DMR進(jìn)行了注釋。注釋過程包括基于它們相對于基因轉(zhuǎn)錄的位置對DMR進(jìn)行分類,包括啟動子區(qū)域(距離轉(zhuǎn)錄起始位點或TSS 2kb范圍內(nèi))、內(nèi)含子、外顯子以及基因間區(qū)域。此外,DMR還基于它們與CpG島、CpG岸(距離島2kb范圍內(nèi))、CpG擱淺區(qū)(距離岸2kb范圍內(nèi))以及開放海域(在之前三個區(qū)域之外)的關(guān)聯(lián)進(jìn)行注釋。CpG島的注釋信息是從UCSC Genome Browser網(wǎng)站(http://genome.ucsc.edu)(Karemaker和Vermeulen,2018)獲得的。

2.4.3功能富集分析

? ??????使用Metascape軟件(http://metascape.org)(Karolchik等人,2003)識別富集的基因本體(GO)術(shù)語。功能富集分析的基因列表包括在它們的啟動子(距離TSS 2kb范圍內(nèi))和/或基因體內(nèi)含有DMR的基因。對于GO富集分析,只選擇與“生物過程”相關(guān)的術(shù)語。使用Benjamini-Hochberg方法調(diào)整P值,以控制假發(fā)現(xiàn)率(FDR)(Zhou et al.2019)。

3?

在差異實驗中,所有1000個模擬數(shù)據(jù)區(qū)域都被劃定為差異甲基化區(qū)域(DMRs),而在無差異實驗中,所有1000個區(qū)域表現(xiàn)出無差異甲基化。為了確保模擬數(shù)據(jù)的有效性,我們將其分布與真實數(shù)據(jù)(具體來說,是單細(xì)胞甲基化測序數(shù)據(jù)中染色體1的數(shù)據(jù))進(jìn)行了比較,如補(bǔ)充附錄中的補(bǔ)充圖表S1所示。圖表呈現(xiàn)了以下觀察結(jié)果:(i) 模擬數(shù)據(jù)和真實數(shù)據(jù)的范圍都被擴(kuò)大到0-1;(ii) 模擬數(shù)據(jù)的分布與真實數(shù)據(jù)的分布緊密對應(yīng)。

我們通過分析五個模擬實驗的平均結(jié)果,來評估scDMV和對比算法(Methylpy, CGmapTools)的集合性能。P值截止值為0.01的結(jié)果在表1中展示,而所有五個實驗的詳細(xì)結(jié)果可以在補(bǔ)充附錄的補(bǔ)充表格S1-S3中找到。

在模擬實驗中,我們使用敏感性和精確性作為算法的性能指標(biāo)。敏感性是以P值不超過定義的截止值的區(qū)域數(shù)量與在差異實驗中總區(qū)域數(shù)量之比計算的。另一方面,精確性是以在差異實驗中確認(rèn)的DMRs數(shù)量與所有實驗中識別的DMRs總數(shù)之比確定的。

為了可視化結(jié)果,我們在各個截止點上繪制了每種方法的五個實驗結(jié)果,以假陽性發(fā)現(xiàn)率(FDR)表示在橫坐標(biāo)軸,以敏感性表示在縱坐標(biāo)軸。補(bǔ)充附錄的補(bǔ)充圖表S2展示了這幅圖,其中黑色垂直線對應(yīng)FDR為0.005,表示當(dāng)FDR低于此閾值時,統(tǒng)計顯著性。

—————————————————

通過檢查圖表,可以明顯看出,scDMV算法在控制I型錯誤時始終表現(xiàn)出更高的敏感性,尤其是當(dāng)D(甲基化水平的差異)為0或更大時。此外,scDMV在比較其他兩種算法時展示出更優(yōu)的精確性,對于D的多個截斷點(特別是0、0.1和0.15)都能保持高敏感性。

此外,我們還展示了三種方法的精確性盒圖,如補(bǔ)充附錄圖表S3所示。如補(bǔ)充圖S3A所示,無論篩查條件如何,scDMV始終能達(dá)到比其他兩種方法更高的精確性。值得注意的是,在所有情景中,scDMV的精確性始終高于0.98。

除了敏感性和精確性,研究人員通常也對算法的假陽性率(FPR)進(jìn)行評估。補(bǔ)充圖表S3B展示了三種方法的FPR盒圖,明顯顯示出scDMV始終能維持低于其他兩種方法的假陽性率。值得注意的是,methylpy的假陽性率顯著高,這可能由該方法的實驗原理造成。

基于模擬結(jié)果,我們可以得出以下結(jié)論:scDMV在識別單細(xì)胞數(shù)據(jù)中的DMRs時,表現(xiàn)出了非凡的精確性和敏感性。總的來說,前述的模擬結(jié)果表明,scDMV方法在精準(zhǔn)檢測單細(xì)胞亞硫酸鹽測序數(shù)據(jù)中的DNA甲基化差異方面,超過了其他兩種方法。


————————

3.2

在評估scDMV的性能時,我們使用精確性作為評價標(biāo)準(zhǔn)。精確性被定義為在所有識別出的DMRs中正確檢測到的DMRs的比例。在前述的實驗中,我們假設(shè)在組間實驗中檢測到的DMRs都是正確識別的,而在組內(nèi)實驗中檢測到的DMRs都是誤識別的。因此,我們將組間實驗中識別出的DMRs數(shù)量定義為真陽性(TP0),將組內(nèi)實驗中發(fā)現(xiàn)的DMRs數(shù)量定義為假陽性(FP0)。因此,精確性可以使用以下公式進(jìn)行計算:


數(shù)據(jù)處理后,第一次實驗產(chǎn)生了總共11083個區(qū)域,而第二次實驗得到了13193個區(qū)域。我們設(shè)置P值截斷點為0.001、0.005、0.01和0.05,以及D截斷點為0.1、0.15和0.2。

因此,我們得到了在不同閾值下的三種方法的實驗結(jié)果(完整的實驗結(jié)果參見補(bǔ)充附錄的補(bǔ)充表S4)。

結(jié)果表明,隨著閾值變得更嚴(yán)格,CGmapTools和scDMV方法的精確性逐漸降低,而methylpy方法的精確性相對穩(wěn)定。具體來說,當(dāng)P值的截斷點設(shè)置為0.001、0.005和0.01時,scDMV方法始終保持了0.71以上的精確性水平,而其他兩種方法未能達(dá)到0.66的精確性。當(dāng)我們將P值截斷點設(shè)置為0.05時,scDMV的精確性下降,但仍高于0.65,而兩種相應(yīng)方法的精確性低于0.59。

在比較不同閾值的結(jié)果時,scDMV相比其他兩種方法始終表現(xiàn)出較高的精確性。換句話說,scDMV在確保誤識別區(qū)域減少的同時,可以識別出更多的DMR。


3.3 差異甲基化的表征

為了準(zhǔn)確描述8-細(xì)胞階段和4-細(xì)胞階段之間的DMRs,我們設(shè)定了嚴(yán)格的閾值選擇基于P值≤0.001和D≥0.2的DMRs。結(jié)果發(fā)現(xiàn),全基因組共有1457個DMRs。在這些DMRs中,有1446個(99.25%)在8-細(xì)胞胚胎中顯示出甲基化過度(圖2A)。這個結(jié)果與先前的研究一致,后者報告了8-細(xì)胞胚胎與4-細(xì)胞胚胎相比全局DNA甲基化水平的顯著上升(Benjamini和Hochberg 1995,Zhu等。2018)。

為了研究DMRs的基因組分布,我們使用了clusterProfiler包(Hanna等人。2016)基于人類hg19參考基因組注釋區(qū)域。分析顯示,連續(xù)發(fā)育階段之間的大部分DMRs(49.69%)位于轉(zhuǎn)錄本的內(nèi)含子區(qū)域中(圖2B)。此外,11.94%的DMRs被發(fā)現(xiàn)在啟動子區(qū)域,這與啟動子甲基化與轉(zhuǎn)錄沉默的關(guān)聯(lián)是一致的(Siegfried等人。1999,Yu等人。2012)。值得注意的是,當(dāng)比較scDMV方法與其他兩種方法時,也觀察到了DMRs基因組分布的相似模式(圖2D)。

此外,一部分明顯的比例(4.95%)由scDMV工具檢測到的DMRs被發(fā)現(xiàn)位于CpG島內(nèi)(圖2C),這與由CGmapTools工具識別的DMRs的基因組分布相符(圖2E)。相反,methylpy識別的DMRs對CpG密度高的區(qū)域有更大偏好,如CpG島(9.02%)和CpG海濱(14.7%)(圖2E)。methylpy在DMR識別過程中的這種偏見,包括首先識別差異甲基化位點然后將其合并為DMRs,可能有助于這種觀察??赡芟駍cDMV這樣的方法,直接定義候選甲基化區(qū)域,通過避免這些偏見達(dá)到更高的準(zhǔn)確性(Baylin 2005)。

3.4?scDMV有效地捕獲了CGmapTools忽視的關(guān)鍵信息

由于methylpy方法的假陽性率較高,我們將比較重點放在scDMV和CGmapTools方法之間。其中,scDMV報告了總共1457個DMRs,而CGmapTools報告了535個DMRs。值得注意的是,scDMV捕獲了CGmapTools識別的95.7%的DMRs,如圖3A(左)所示。此外,在基因?qū)用妫瑑煞N方法識別的DMRs之間有308個基因的重疊,如圖3A(右)所示??傮w來說,scDMV提供了更大量的信息,幾乎捕獲了CGmapTools報告的所有DMRs。

考慮到scDMV識別的DMR基因(417)數(shù)量比CGmapTools多,對兩個基因列表中不同的DMR基因進(jìn)行功能注釋就變得很有趣。通過GO富集分析,發(fā)現(xiàn)共有的DMR基因在與發(fā)育調(diào)控相關(guān)的功能,如解剖結(jié)構(gòu)大小的調(diào)節(jié)和小GTP酶介導(dǎo)的信號轉(zhuǎn)導(dǎo)等方面顯著富集(圖3B)。

相比之下,scDMV特殊識別的DMR基因在與蛋白磷酸化和神經(jīng)系統(tǒng)發(fā)育調(diào)節(jié)等過程中高度富集(圖3B)。值得注意的是,早期研究已經(jīng)顯示,磷酸化動態(tài)在早期發(fā)育過程中的調(diào)控蛋白質(zhì)中起主導(dǎo)作用,8-細(xì)胞胚胎中的磷酸化蛋白質(zhì)與翻譯后機(jī)制相關(guān)(Bloom和McConnell 1990、Ju¨ hling等人 2016、Peuchen等人 2017)。DMR基因的功能富集表明,與蛋白質(zhì)磷酸化相關(guān)的基因的DNA甲基化變化可能在胚胎發(fā)育中起關(guān)鍵作用,特別是在8-細(xì)胞階段。這些發(fā)現(xiàn)為連續(xù)發(fā)育階段之間的DNA甲基組動態(tài)提供了寶貴的見解。

總的來說,scDMV方法成功捕獲了幾乎所有CGmapTools識別的DMR。此外,與CGmapTools相比,scDMV揭示了更廣泛的重要生物事件,顯示出其提供更全面見解的能力。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容