摘要

動機(jī)：?

?????單細(xì)胞亞硫酸鹽測序（scBS-seq）方法的使用，允許對DNA甲基化模式進(jìn)行精確的單細(xì)胞級別分析，能夠識別稀有的種群，揭示細(xì)胞特異的表觀遺傳變化，并提高差異甲基化分析的精確度。然而，由于限制的測序深度和覆蓋范圍，數(shù)據(jù)稀疏和零和一的過多，使得使用scBS-seq進(jìn)行差異甲基化檢測時，精確度準(zhǔn)確率經(jīng)常降低。因此，急需一種創(chuàng)新的差異甲基化分析方法，有效處理這些數(shù)據(jù)特性并提高識別準(zhǔn)確率。

結(jié)果：

? ??結(jié)果：我們提出了一種名為scDMV的新型貝塔混合方法，用于分析單細(xì)胞亞硫酸鹽測序數(shù)據(jù)中的甲基化差異，該方法有效地處理了過多的零和一，并能適應(yīng)低輸入測序。我們的大量模擬研究表明，scDMV方法在敏感性、準(zhǔn)確性和控制假陽性率方面都優(yōu)于其他幾種方法。此外，在實際數(shù)據(jù)應(yīng)用中，我們觀察到即使在低輸入樣本中，scDMV在識別差異甲基化區(qū)域方面也表現(xiàn)出更高的精度和敏感性。另外，scDMV揭示了使用單細(xì)胞全基因組測序數(shù)據(jù)進(jìn)行GO富集分析時，其他方法常常忽視的重要信息。

介紹

????????表觀遺傳學(xué)研究的是與DNA序列變化無關(guān)的可遺傳的基因表達(dá)變化。關(guān)鍵的表觀遺傳修飾，如DNA甲基化、組蛋白修飾、啟動子-增強(qiáng)子相互作用和非編碼RNA調(diào)控，都起著至關(guān)重要的作用，可能導(dǎo)致疾病的發(fā)生。在這些修飾中，由于DNA甲基化的可逆性和其作為藥物靶點的潛力，它已經(jīng)受到了大量的關(guān)注。在哺乳動物中，DNA甲基化主要發(fā)生在CpG位點，那里的胞嘧啶的第五個碳原子被DNA甲基轉(zhuǎn)移酶甲基化，形成5-甲基胞嘧啶。CpG位點可以分布在整個DNA序列中，也可以集中在位于調(diào)控區(qū)域的CpG島上。理解DNA甲基化對闡明其對細(xì)胞發(fā)育、疾病進(jìn)展和基因調(diào)控的影響至關(guān)重要。

? ??????分析樣本間的DNA甲基化差異對于理解疾病發(fā)病機(jī)制、預(yù)防疾病和診斷疾病至關(guān)重要。常用的兩種甲基化差異分析方法分別是差異甲基化位點（DMS）分析和差異甲基化區(qū)域（DMR）分析。DMS分析側(cè)重于單一樣本內(nèi)的個別甲基化位點，而與基因表達(dá)的關(guān)聯(lián)較小。相比之下，DMR分析考慮的是由一個或多個DMS組成的連續(xù)區(qū)域，并允許在多個樣本組之間進(jìn)行比較，從而提供對基因表達(dá)更多的理解。

? ??????近年來，用于識別差異甲基化的基于測序的方法有所增加。這些方法包括多種方法，如邏輯回歸、貝塔-二項分布（beta-binomial distribution）、隱馬爾可夫模型、香農(nóng)熵和二元分割平滑（binary segmentation）?，F(xiàn)有的算法包括“eDMR”，“RADMeth”，“BSmooth”和"CGmapTools"。

? ?????當(dāng)依賴來自多個細(xì)胞的平均數(shù)據(jù)時，使用傳統(tǒng)策略研究DNA甲基化多樣性的能力是有限的。單細(xì)胞全基因組亞硫酸鹽測序（Single-cell whole-genome bisulfite sequencing）(scWGBS 和 scRRBS)已經(jīng)成為評估單個細(xì)胞和稀有細(xì)胞類型的DNA甲基化多樣性的有前景的方法。然而，單細(xì)胞DNA甲基化測序數(shù)據(jù)的稀疏性和獨特特性（包括低覆蓋率和過多的零和一（例如在2.4節(jié)的真實例子中，0和1的甲基化率之和超過0.9)），使得傳統(tǒng)的統(tǒng)計方法不充分。因此，需要新的方法來進(jìn)行使用scBS-seq數(shù)據(jù)的差異甲基化分析。

????????在這篇文章中，我們提出了一種名為scDMV（(zero–one inflated beta mixture model）的策略，用于分析單細(xì)胞亞硫酸鹽數(shù)據(jù)。我們假定，根據(jù)表示甲基化率的細(xì)胞和區(qū)域特異效應(yīng)的條件，scBS-seq數(shù)據(jù)遵循二項分布。此外，我們使用零一通脹的貝塔分布來模擬效應(yīng)分布，以解釋零和一的過度存在，以及在scBS-seq數(shù)據(jù)中觀察到的過度離散化。我們采用EM算法來估計模型參數(shù)，并利用Wald檢驗來進(jìn)行差異甲基化分析。我們通過包括模擬實驗和真實數(shù)據(jù)應(yīng)用在內(nèi)的數(shù)值研究，將scDMV的性能與兩種現(xiàn)有的方法，methylpy和CGmapTools進(jìn)行了比較。結(jié)果表明，scDMV的性能優(yōu)越，特別是在捕獲單細(xì)胞全基因組測序數(shù)據(jù)進(jìn)行GO富集分析的重要信息方面。

2.材料與方法

????觀察到的scBS-seq數(shù)據(jù)由一個集合表示，記為

$n_{gij}$ 表示從第j個區(qū)域的g類型的第i個細(xì)胞獲得的總讀取， $x_{gij}$ 表示從第j個區(qū)域的g類型的第i個細(xì)胞獲得的甲基化讀取，g對應(yīng)于細(xì)胞類型； $N_{g}$ 表示屬于g類型的細(xì)胞數(shù)，i表示樣本或細(xì)胞，j對應(yīng)于不同的CG區(qū)域，M表示考慮的CG段的總數(shù)。

? ??????設(shè) $p_{gj}$ 表示在第j區(qū)域?qū)儆趃類型的細(xì)胞的甲基化率。我們將Pg定義為g類型細(xì)胞的甲基化率向量，由 $P_{g} = (p_{g1},...,p_{gM})^T$ 給出。差異甲基化分析(differential methylation analysis)的主要目標(biāo)是檢驗兩個甲基化率向量之間的平均甲基化水平是否相等的零假設(shè)( null hypothesis)是否成立。替代假設(shè)(alternative hypothesis)，記為H1，暗示存在特定區(qū)域，記為 $m \in (1,...,M )$ ，其中兩種細(xì)胞類型的平均甲基化率不同。

????為了處理這個假設(shè)檢驗問題，我們首先構(gòu)造一個檢驗統(tǒng)計量。隨后，我們開發(fā)了一種識別DMR集的程序。

2.1制定模型和測試統(tǒng)計量

? ??????假定總讀數(shù) $n_{gij}$ ，有理由假設(shè)甲基化讀數(shù) $x_{gij}$ 遵循二項分布，可以表示為：

其中 $p_{gj}$ 代表區(qū)域j中g(shù)類型細(xì)胞的甲基化率。值得注意的是，細(xì)胞的甲基化率顯示出顯著的異質(zhì)性( heterogeneity)，通常以過多的零和一為特征。為了捕捉這種變異性，我們將 $p_{gj}$ 建模為隨機(jī)效應(yīng)( random effect)，并定義其均值為 $E_{p_{gj}} = \mu_{gj}$ 。對于每個區(qū)域j，我們測試假設(shè)

????觀察到單個細(xì)胞中的DNA甲基化率pgj傾向于在0和1之間集中，我們假設(shè)pgj遵循0-1通脹的混合貝塔分布。這個分布可以如下特征化：

在這個模型中，評估兩種樣本類型之間的差異甲基化表達(dá)歸結(jié)為檢查：

????????重要的是要強(qiáng)調(diào)，與兩種樣本類型相關(guān)的四個參數(shù)可以在CG區(qū)域j中變化(vary across CG)。現(xiàn)在，讓我們繼續(xù)推導(dǎo)出估計這些參數(shù)的算法。對于給定的g和j值，我們計算似然函數(shù)，并使用EM算法估計參數(shù) $\theta_g = (\pi_{gj0},\pi_{gj1},\alpha_{gj},\beta_{gj} ).$ 。信息矩陣 $I(\pi_{gj0},\pi_{gj1},\alpha_{gj},\beta_{gj})$ 的形式為

以及g類細(xì)胞在區(qū)域j中的甲基化率的期望值

在零假設(shè)下，得到的Wald檢驗統(tǒng)計量為

漸近的遵循標(biāo)準(zhǔn)正態(tài)分布?？偟膩碚f，基于等式（1）導(dǎo)出了檢驗統(tǒng)計量，圖1中的流程圖描繪了scDMV方法。

2.2?DMR 識別

????接下來，我們評估所有M個區(qū)域以得到M個P值。P值低于指定截止值的區(qū)域被認(rèn)為顯著不同，并被分類為DMR。隨后，常用的方法利用樣本間的DNA甲基化差異精化最初獲得的DMR，以提高準(zhǔn)確性。在我們的研究中，使用加權(quán)DNA甲基化來計算甲基化程度差異，記為D，該差異在每個區(qū)域內(nèi)的兩種樣本之間存在。然后為D設(shè)置一個截止值，最后的DMR必須滿足D超過截止值的條件。通常，模型識別的DMR是那些P值低于P值截止值和D超過D截止值的區(qū)域。

2.3 仿真研究

????現(xiàn)有的方法，如CGmapTools和methylpy，是專門設(shè)計用于分析由大量細(xì)胞形成的細(xì)胞群之間的差異的，這些細(xì)胞使用的是傳統(tǒng)的亞硫酸鹽測序技術(shù)。因此，它們可能不能直接應(yīng)用于單細(xì)胞數(shù)據(jù)。相比之下，我們在這項研究中提出的新的統(tǒng)計方法，稱為scDMV，考慮到了scBS-seq測序數(shù)據(jù)中深度和覆蓋面低的特定特性。為了評估和比較CGmapTools、methylpy和新的scDMV方法在識別單細(xì)胞DNA甲基化數(shù)據(jù)中的DMR方面的性能，我們基于模擬的scBS-seq數(shù)據(jù)進(jìn)行了幾次模擬實驗。

????????我們生成了一個由73個樣本組成的模擬數(shù)據(jù)集，其中兩種明顯的細(xì)胞類型的樣本大小分別為48和25。每個樣本包括10000個位點，其中每個位點的甲基化讀取由x表示，總讀取由n表示。數(shù)據(jù)集分為1000個區(qū)域，每10個連續(xù)位點形成一個區(qū)域。數(shù)據(jù)模擬過程涉及三個主要步驟。首先，我們?yōu)閮煞N樣本類型分配四個參數(shù)的值（p10; p11; a1; b1）和（p20; p21; a2; b2）。其次，我們根據(jù)實際的總閱讀數(shù)獲得模擬的總閱讀數(shù)。最后，根據(jù)基礎(chǔ)理論模型生成模擬的甲基化閱讀數(shù)。

? ??????為了說明生成模擬數(shù)據(jù)的過程，我們以一個特定的區(qū)域為例。首先，我們通過從真實總讀取數(shù)據(jù)的每一列中隨機(jī)抽取10個非零值，生成模擬的總讀取數(shù)據(jù)，記為n。然后，根據(jù)前面提到的先驗分布生成該區(qū)域的甲基化讀取x。按照這個程序，我們獲得了特定區(qū)域的模擬數(shù)據(jù)。

? ??????上述過程重復(fù)1000次，產(chǎn)生1000個區(qū)域的模擬數(shù)據(jù)。每個區(qū)域的甲基化讀取x和總讀取n數(shù)據(jù)分別存儲在單獨的列表中，結(jié)果得到1000個列表的集合。然后這1000個列表被合并成一個綜合列表，代表最后的模擬數(shù)據(jù)。模擬數(shù)據(jù)中0和1處的甲基化率之和是0.66。

? ??????進(jìn)行了兩種類型的模擬實驗：差異實驗（difference experiments）和無差異實驗（indifference experiments）。在差異實驗中，參數(shù)值（p10; p11; a1; b1）和（p20; p21; a2; b2）特意設(shè)置為不同，產(chǎn)生了模擬數(shù)據(jù)，展現(xiàn)了組間的差異。另一方面，在無差異實驗中，（p10; p11; a1; b1）和（p20; p21; a2; b2）被設(shè)定為完全相同，產(chǎn)生了沒有組差異的模擬數(shù)據(jù)。對于每種類型的實驗，都模擬了五組實驗數(shù)據(jù)。

? ??????為了評估scDMV方法在識別DMR方面的比較準(zhǔn)確性，我們進(jìn)行了模擬實驗，并將其性能與methylpy和CGmapTools進(jìn)行了比較。樣本組的區(qū)域平均甲基化水平被定義為甲基化讀取總和與該區(qū)域內(nèi)所有樣本中所有位點的總讀取總和的比率。甲基化水平的差異，記為D，表示了同一區(qū)域內(nèi)兩個樣本組之間的區(qū)域平均甲基化水平的差異。對于每個方法，分別為每個區(qū)域計算P值和D值。我們采用了不同的P值（0.001，0.005，0.01和0.05）和D（0，0.1，0.15和0.2）截止值。滿足P值不超過指定截止值和D超過定義閾值的區(qū)域被認(rèn)為是識別出的DMR。

2.4 真實數(shù)據(jù)應(yīng)用

????為了探索早期胚胎發(fā)育期間的甲基化模式，我們在一個公開可用的數(shù)據(jù)集（Benjamini和Hochberg，1995）上使用了scDMV方法，并將其結(jié)果與兩種替代方法進(jìn)行了比較。

2.4.1 真實數(shù)據(jù)實驗設(shè)計

????????這個數(shù)據(jù)集（GEO ID: GSE81233）包括來自兩個連續(xù)發(fā)育階段的73個樣本，包括25個4-細(xì)胞樣本和48個8-細(xì)胞樣本。進(jìn)行了組內(nèi)和組間實驗。在組間實驗中，涉及到有差異的樣本，我們使用所有的73個樣本來識別25個4-細(xì)胞胚胎樣本和48個8-細(xì)胞胚胎樣本之間的DMR。通過應(yīng)用不同的P值截止值和不同的DNA甲基化水平差異（D）閾值，獲得了三種方法的實驗結(jié)果。在組內(nèi)實驗中，樣本之間沒有差異，我們從48個8-細(xì)胞胚胎樣本中選擇了40個，將它們平均分為兩組來識別DMR。由于同一發(fā)育階段的樣本的整體甲基化模式傾向于保持穩(wěn)定（Benjamini和Hochberg，1995），所以這兩組之間不應(yīng)存在甲基化的個體差異。因此，在這種情況下識別出的DMR可以被認(rèn)為是假陽性DMR。

? ??????為了提高識別DMR的準(zhǔn)確性，我們進(jìn)行了數(shù)據(jù)預(yù)處理和過濾程序。首先，我們評估每個位點的顯著性，以確定其對區(qū)域的影響。被排除的位點包括丟失值超過總樣本數(shù)50%的位點。位點過濾后，將數(shù)據(jù)劃分為最大長度為300bp的區(qū)域，確保每個區(qū)域包含至少3個位點。按照上述數(shù)據(jù)組織方法，每個區(qū)域由兩個列表表示：一個用于總閱讀數(shù)據(jù)，另一個用于甲基化閱讀數(shù)據(jù)。每條染色體的所有區(qū)域都存儲為一個名為“testRegion”的集合列表，從而為每條染色體形成一個列表。隨后，使用“testRegion”中的數(shù)據(jù)進(jìn)行使用scDMV方法的實驗。在實驗過程中，我們采用加權(quán)方法計算區(qū)域甲基化水平。我們對每條染色體執(zhí)行實驗，為每個區(qū)域生成P值和D值。最后，我們應(yīng)用之前定義的截止值來相應(yīng)地過濾區(qū)域。

????在最后一步，我們將兩個實驗的結(jié)果合并，進(jìn)行全面的分析和比較三種方法，從而評估scDMV方法在識別DMR方面的性能。

2.4.2 DMR的注釋

? ??????通過ChIPSeeker R包（版本1.24.0）（Yu et al. 2015），基于它們在人類基因組（hg19）中對應(yīng)的區(qū)域，對8細(xì)胞階段和4細(xì)胞階段之間確定的DMR進(jìn)行了注釋。注釋過程包括基于它們相對于基因轉(zhuǎn)錄的位置對DMR進(jìn)行分類，包括啟動子區(qū)域（距離轉(zhuǎn)錄起始位點或TSS 2kb范圍內(nèi)）、內(nèi)含子、外顯子以及基因間區(qū)域。此外，DMR還基于它們與CpG島、CpG岸（距離島2kb范圍內(nèi)）、CpG擱淺區(qū)（距離岸2kb范圍內(nèi)）以及開放海域（在之前三個區(qū)域之外）的關(guān)聯(lián)進(jìn)行注釋。CpG島的注釋信息是從UCSC Genome Browser網(wǎng)站（http://genome.ucsc.edu）（Karemaker和Vermeulen，2018）獲得的。

2.4.3功能富集分析

? ??????使用Metascape軟件（http://metascape.org）（Karolchik等人，2003）識別富集的基因本體（GO）術(shù)語。功能富集分析的基因列表包括在它們的啟動子（距離TSS 2kb范圍內(nèi)）和/或基因體內(nèi)含有DMR的基因。對于GO富集分析，只選擇與“生物過程”相關(guān)的術(shù)語。使用Benjamini-Hochberg方法調(diào)整P值，以控制假發(fā)現(xiàn)率（FDR）（Zhou et al.2019）。

在差異實驗中，所有1000個模擬數(shù)據(jù)區(qū)域都被劃定為差異甲基化區(qū)域（DMRs），而在無差異實驗中，所有1000個區(qū)域表現(xiàn)出無差異甲基化。為了確保模擬數(shù)據(jù)的有效性，我們將其分布與真實數(shù)據(jù)（具體來說，是單細(xì)胞甲基化測序數(shù)據(jù)中染色體1的數(shù)據(jù)）進(jìn)行了比較，如補(bǔ)充附錄中的補(bǔ)充圖表S1所示。圖表呈現(xiàn)了以下觀察結(jié)果：(i) 模擬數(shù)據(jù)和真實數(shù)據(jù)的范圍都被擴(kuò)大到0-1；(ii) 模擬數(shù)據(jù)的分布與真實數(shù)據(jù)的分布緊密對應(yīng)。

我們通過分析五個模擬實驗的平均結(jié)果，來評估scDMV和對比算法（Methylpy, CGmapTools）的集合性能。P值截止值為0.01的結(jié)果在表1中展示，而所有五個實驗的詳細(xì)結(jié)果可以在補(bǔ)充附錄的補(bǔ)充表格S1-S3中找到。

在模擬實驗中，我們使用敏感性和精確性作為算法的性能指標(biāo)。敏感性是以P值不超過定義的截止值的區(qū)域數(shù)量與在差異實驗中總區(qū)域數(shù)量之比計算的。另一方面，精確性是以在差異實驗中確認(rèn)的DMRs數(shù)量與所有實驗中識別的DMRs總數(shù)之比確定的。

為了可視化結(jié)果，我們在各個截止點上繪制了每種方法的五個實驗結(jié)果，以假陽性發(fā)現(xiàn)率(FDR)表示在橫坐標(biāo)軸，以敏感性表示在縱坐標(biāo)軸。補(bǔ)充附錄的補(bǔ)充圖表S2展示了這幅圖，其中黑色垂直線對應(yīng)FDR為0.005，表示當(dāng)FDR低于此閾值時，統(tǒng)計顯著性。

—————————————————

通過檢查圖表，可以明顯看出，scDMV算法在控制I型錯誤時始終表現(xiàn)出更高的敏感性，尤其是當(dāng)D（甲基化水平的差異）為0或更大時。此外，scDMV在比較其他兩種算法時展示出更優(yōu)的精確性，對于D的多個截斷點（特別是0、0.1和0.15）都能保持高敏感性。

此外，我們還展示了三種方法的精確性盒圖，如補(bǔ)充附錄圖表S3所示。如補(bǔ)充圖S3A所示，無論篩查條件如何，scDMV始終能達(dá)到比其他兩種方法更高的精確性。值得注意的是，在所有情景中，scDMV的精確性始終高于0.98。

除了敏感性和精確性，研究人員通常也對算法的假陽性率（FPR）進(jìn)行評估。補(bǔ)充圖表S3B展示了三種方法的FPR盒圖，明顯顯示出scDMV始終能維持低于其他兩種方法的假陽性率。值得注意的是，methylpy的假陽性率顯著高，這可能由該方法的實驗原理造成。

基于模擬結(jié)果，我們可以得出以下結(jié)論：scDMV在識別單細(xì)胞數(shù)據(jù)中的DMRs時，表現(xiàn)出了非凡的精確性和敏感性。總的來說，前述的模擬結(jié)果表明，scDMV方法在精準(zhǔn)檢測單細(xì)胞亞硫酸鹽測序數(shù)據(jù)中的DNA甲基化差異方面，超過了其他兩種方法。

————————

3.2

在評估scDMV的性能時，我們使用精確性作為評價標(biāo)準(zhǔn)。精確性被定義為在所有識別出的DMRs中正確檢測到的DMRs的比例。在前述的實驗中，我們假設(shè)在組間實驗中檢測到的DMRs都是正確識別的，而在組內(nèi)實驗中檢測到的DMRs都是誤識別的。因此，我們將組間實驗中識別出的DMRs數(shù)量定義為真陽性（TP0），將組內(nèi)實驗中發(fā)現(xiàn)的DMRs數(shù)量定義為假陽性（FP0）。因此，精確性可以使用以下公式進(jìn)行計算：

數(shù)據(jù)處理后，第一次實驗產(chǎn)生了總共11083個區(qū)域，而第二次實驗得到了13193個區(qū)域。我們設(shè)置P值截斷點為0.001、0.005、0.01和0.05，以及D截斷點為0.1、0.15和0.2。

因此，我們得到了在不同閾值下的三種方法的實驗結(jié)果（完整的實驗結(jié)果參見補(bǔ)充附錄的補(bǔ)充表S4）。

結(jié)果表明，隨著閾值變得更嚴(yán)格，CGmapTools和scDMV方法的精確性逐漸降低，而methylpy方法的精確性相對穩(wěn)定。具體來說，當(dāng)P值的截斷點設(shè)置為0.001、0.005和0.01時，scDMV方法始終保持了0.71以上的精確性水平，而其他兩種方法未能達(dá)到0.66的精確性。當(dāng)我們將P值截斷點設(shè)置為0.05時，scDMV的精確性下降，但仍高于0.65，而兩種相應(yīng)方法的精確性低于0.59。

在比較不同閾值的結(jié)果時，scDMV相比其他兩種方法始終表現(xiàn)出較高的精確性。換句話說，scDMV在確保誤識別區(qū)域減少的同時，可以識別出更多的DMR。

3.3 差異甲基化的表征

為了準(zhǔn)確描述8-細(xì)胞階段和4-細(xì)胞階段之間的DMRs，我們設(shè)定了嚴(yán)格的閾值選擇基于P值≤0.001和D≥0.2的DMRs。結(jié)果發(fā)現(xiàn)，全基因組共有1457個DMRs。在這些DMRs中，有1446個（99.25%）在8-細(xì)胞胚胎中顯示出甲基化過度（圖2A）。這個結(jié)果與先前的研究一致，后者報告了8-細(xì)胞胚胎與4-細(xì)胞胚胎相比全局DNA甲基化水平的顯著上升（Benjamini和Hochberg 1995，Zhu等。2018）。

為了研究DMRs的基因組分布，我們使用了clusterProfiler包（Hanna等人。2016）基于人類hg19參考基因組注釋區(qū)域。分析顯示，連續(xù)發(fā)育階段之間的大部分DMRs（49.69%）位于轉(zhuǎn)錄本的內(nèi)含子區(qū)域中（圖2B）。此外，11.94%的DMRs被發(fā)現(xiàn)在啟動子區(qū)域，這與啟動子甲基化與轉(zhuǎn)錄沉默的關(guān)聯(lián)是一致的（Siegfried等人。1999，Yu等人。2012）。值得注意的是，當(dāng)比較scDMV方法與其他兩種方法時，也觀察到了DMRs基因組分布的相似模式（圖2D）。

此外，一部分明顯的比例（4.95%）由scDMV工具檢測到的DMRs被發(fā)現(xiàn)位于CpG島內(nèi)（圖2C），這與由CGmapTools工具識別的DMRs的基因組分布相符（圖2E）。相反，methylpy識別的DMRs對CpG密度高的區(qū)域有更大偏好，如CpG島（9.02%）和CpG海濱（14.7%）（圖2E）。methylpy在DMR識別過程中的這種偏見，包括首先識別差異甲基化位點然后將其合并為DMRs，可能有助于這種觀察?？赡芟駍cDMV這樣的方法，直接定義候選甲基化區(qū)域，通過避免這些偏見達(dá)到更高的準(zhǔn)確性（Baylin 2005）。

3.4?scDMV有效地捕獲了CGmapTools忽視的關(guān)鍵信息

由于methylpy方法的假陽性率較高，我們將比較重點放在scDMV和CGmapTools方法之間。其中，scDMV報告了總共1457個DMRs，而CGmapTools報告了535個DMRs。值得注意的是，scDMV捕獲了CGmapTools識別的95.7%的DMRs，如圖3A（左）所示。此外，在基因?qū)用妫瑑煞N方法識別的DMRs之間有308個基因的重疊，如圖3A（右）所示?？傮w來說，scDMV提供了更大量的信息，幾乎捕獲了CGmapTools報告的所有DMRs。

考慮到scDMV識別的DMR基因（417）數(shù)量比CGmapTools多，對兩個基因列表中不同的DMR基因進(jìn)行功能注釋就變得很有趣。通過GO富集分析，發(fā)現(xiàn)共有的DMR基因在與發(fā)育調(diào)控相關(guān)的功能，如解剖結(jié)構(gòu)大小的調(diào)節(jié)和小GTP酶介導(dǎo)的信號轉(zhuǎn)導(dǎo)等方面顯著富集（圖3B）。

相比之下，scDMV特殊識別的DMR基因在與蛋白磷酸化和神經(jīng)系統(tǒng)發(fā)育調(diào)節(jié)等過程中高度富集（圖3B）。值得注意的是，早期研究已經(jīng)顯示，磷酸化動態(tài)在早期發(fā)育過程中的調(diào)控蛋白質(zhì)中起主導(dǎo)作用，8-細(xì)胞胚胎中的磷酸化蛋白質(zhì)與翻譯后機(jī)制相關(guān)（Bloom和McConnell 1990、Ju¨ hling等人 2016、Peuchen等人 2017）。DMR基因的功能富集表明，與蛋白質(zhì)磷酸化相關(guān)的基因的DNA甲基化變化可能在胚胎發(fā)育中起關(guān)鍵作用，特別是在8-細(xì)胞階段。這些發(fā)現(xiàn)為連續(xù)發(fā)育階段之間的DNA甲基組動態(tài)提供了寶貴的見解。

總的來說，scDMV方法成功捕獲了幾乎所有CGmapTools識別的DMR。此外，與CGmapTools相比，scDMV揭示了更廣泛的重要生物事件，顯示出其提供更全面見解的能力。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

scDMV: 一種用于處理單細(xì)胞二硫化物測序數(shù)據(jù)的DNA甲基化變異的零–一通脹β混合模型。原文：“scDMV: a zero–one inflated beta mixture model fo...

scDMV: 一種用于處理單細(xì)胞二硫化物測序數(shù)據(jù)的DNA甲基化變異的零–一通脹β混合模型。原文：“scDMV: a zero–one inflated beta mixture model fo...

摘要

動機(jī)：?

結(jié)果：

介紹

2.材料與方法

2.1制定模型和測試統(tǒng)計量

2.2?DMR 識別

2.3 仿真研究

2.4 真實數(shù)據(jù)應(yīng)用

2.4.1 真實數(shù)據(jù)實驗設(shè)計

2.4.2 DMR的注釋

2.4.3功能富集分析

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

scDMV: 一種用于處理單細(xì)胞二硫化物測序數(shù)據(jù)的DNA甲基化變異的零–一通脹β混合模型。原文：“scDMV: a zero–one inflated beta mixture model fo...

摘要

動機(jī)：?

結(jié)果：

介紹

2.材料與方法

2.1制定模型和測試統(tǒng)計量

2.2?DMR 識別

2.3 仿真研究

2.4 真實數(shù)據(jù)應(yīng)用

2.4.1 真實數(shù)據(jù)實驗設(shè)計

2.4.2 DMR的注釋

2.4.3功能富集分析

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

scDMV: 一種用于處理單細(xì)胞二硫化物測序數(shù)據(jù)的DNA甲基化變異的零–一通脹β混合模型。原文：“scDMV: a zero–one inflated beta mixture model fo...