ewas實(shí)驗(yàn)設(shè)計(文獻(xiàn)閱讀)

本文為以下文獻(xiàn)的筆記:Michels K B, Binder A M, Dedeurwaerder S, et al. Recommendations for the design and analysis of epigenome-wide association studies[J]. Nature methods, 2013, 10(10): 949-955.
https://www.nature.com/nmeth/journal/v10/n10/full/nmeth.2632.html

Abstract

Epigenome-wide association studies (EWAS) 提供了強(qiáng)有力的工具來研究環(huán)境及生活方式對疾病的影響。它可以發(fā)現(xiàn)大量的CpG位點(diǎn),但是從背景噪音中分離信號是具有挑戰(zhàn)性的工作。合適的實(shí)驗(yàn)設(shè)計,詳細(xì)的分析計劃和驗(yàn)證實(shí)驗(yàn)可以減少假陽性結(jié)果,增加重復(fù)性。同質(zhì)的細(xì)胞群體可以增加我們對位點(diǎn)甲基化的認(rèn)識,排除疾病和年齡的影響。這個review總結(jié)了EWAS的強(qiáng)大之處,包括組織樣本的選擇及分析,變異的來源,系統(tǒng)偏倚,分析步驟等。

EWAS的標(biāo)準(zhǔn)剛開始建立,不像GWAS已經(jīng)有標(biāo)準(zhǔn)的流程,許多國際組織如US National Institutes of Health Roadmap Epigenomics Initiative2, the International Human Epigenome Consortium (IHEC)3 and BLUEPRINT (a BLUEPRINT of Hematopoietic Epigenomes)4致力于標(biāo)準(zhǔn)化流程建立,但是他們在實(shí)驗(yàn)設(shè)計,數(shù)據(jù)分析和解釋上貢獻(xiàn)很小。

DNA甲基化的測量可以認(rèn)為是數(shù)量性狀,因?yàn)樵趩蝹€位點(diǎn)是二進(jìn)制的,但是在組織水平測量的成千上萬的copy。因此測量的是百分比。為了解釋生物變異,GWAS需要收集足夠量的樣本來發(fā)現(xiàn)case和control之間的差異,而不是群體里的其他變異。

Paste_Image.png

截止到2013年EWAS研究統(tǒng)計。The primary analysis for nearly every study focused on the variable of interest (for example, cancer, smoking or aging) and site-specific DNA methylation, with ~30% adjusting for additional covariates.The majority of these studies applied some form of correction for multiple testing. 樣本數(shù)在6-2442之間,平均為46.1/3的研究在獨(dú)立樣本中驗(yàn)證。大部分研究在他們的原樣本中進(jìn)行驗(yàn)證。

Paste_Image.png

Figure 2 | Steps toward a successful EWAS. Exposure (e.g., smoking, drug exposure or aging) or outcome (e.g., diseases or onset of puberty) one chooses to study define the research question, the study population, the choice of the tissue and the biologic variability.


design of an ewas

1、提出一個好的假說來解釋甲基化與疾病的關(guān)系,或者是疾病的因或者果,或者間接因素如環(huán)境導(dǎo)致了甲基化和疾病風(fēng)險的變化;假說不僅決定了實(shí)驗(yàn)設(shè)計,也決定了人群及細(xì)胞類型的選擇;

2、Control for population structure and biological variability. 表觀變異與群體特征密切相關(guān)。如果這些特征與疾病表型相關(guān),就會引入混雜因素(自己理解如年齡是與心血管發(fā)病率相關(guān)的)。選擇群體的時候要保證這些特征的同質(zhì)性(如年齡匹配),或者有足夠大量的樣本來阻止人群分層可以用統(tǒng)計方法矯正混雜因素。大樣本對于實(shí)驗(yàn)結(jié)果的可信性是必要的。本review收集的文章樣本數(shù)都很小,很少有統(tǒng)計效能計算。理解DNA甲基化中變異是位點(diǎn)特異性的可以計算統(tǒng)計效能。因?yàn)樽儺愑绊懠谆?,EWAS的研究樣本比GWAS要更多。

3、Choose an appropriate epigenome-wide DNA methylation
protocol.The Illumina Infinium HumanMethylation450 BeadChip (450K array)最常用,可以評估50萬位點(diǎn),基因組的2%CpG位點(diǎn)。因?yàn)樾酒资芘涡?yīng)影響,他們需要合適的實(shí)驗(yàn)設(shè)計和分析方法。缺點(diǎn)是需要大量的DNA(500ng)。另一個缺點(diǎn)是不能識別沒有的位點(diǎn)和特異性甲基化的位點(diǎn)。

DNA甲基化測序-RRBS Reduced Representation Bisulfite Sequencing(RRBS)比芯片覆蓋度更高,但是在CG富集區(qū)效果不好。優(yōu)點(diǎn)是高靈敏性和高通量,可以使用SNP call的方法來處理,因?yàn)樗玫氖莵喠蛩釟潲}處理的。

其他如MeDIP-seq和methyl-CpG binding domain protein sequencing (MBD-seq)是富集甲基化或去甲基化DNA片段,缺乏內(nèi)部對照。因?yàn)榧谆禺愋愿患磻?yīng)是量化的,受許多因素影響如空氣濕度,室溫等。這些技術(shù)很難保證標(biāo)準(zhǔn)化,在不同的時間可能結(jié)果不一樣。實(shí)驗(yàn)步驟可能改變甲基化狀態(tài),但是亞硫酸氫鹽處理可能會改變測序覆蓋度,但是不會改變甲基化狀態(tài)。但是由于成本的下降和統(tǒng)計上標(biāo)準(zhǔn)化數(shù)據(jù)和去除批次效應(yīng)的影響還是應(yīng)用很廣泛。

批次效應(yīng)是最普遍的引起假陽性的原因,特別是對于環(huán)境敏感的實(shí)驗(yàn),如PCR。這可以通過實(shí)驗(yàn)設(shè)計來避免:case和control在芯片上平衡分布以及處理時間和其他相關(guān)的技術(shù)上的改變。樣本在同一時間處理,遵循嚴(yán)格的標(biāo)準(zhǔn)條件,還要保證每批次有相同數(shù)量并隨機(jī)挑選的case和control。芯片實(shí)驗(yàn)推薦在同一plate或批次中設(shè)置10%的樣本作為內(nèi)參樣本,如重復(fù)樣本和50%甲基化的樣本,用來計算變異相關(guān)系數(shù),評估批次效應(yīng)。有幾個質(zhì)量評估的包:lumi

4、Verify and validate results 芯片本身是不精確的有噪音的,標(biāo)準(zhǔn)的驗(yàn)證實(shí)驗(yàn)需要單位點(diǎn)驗(yàn)證,如甲基化測序和massarray。生物上的重復(fù)包括不同樣本和不同技術(shù)的重復(fù)。驗(yàn)證實(shí)驗(yàn)用不同的技術(shù)是必要的,因?yàn)榧夹g(shù) 問題或者統(tǒng)計方法問題會導(dǎo)致相同的偏倚。但是在著手費(fèi)時費(fèi)力的驗(yàn)證實(shí)驗(yàn)時,至少一些驗(yàn)證實(shí)驗(yàn)是需要的來排除技術(shù)錯誤如雜交探針或者不能識別的SNP位點(diǎn)。

5、Infer causation with caution. 當(dāng)前的EWAS是探索性的,報道的EWAS應(yīng)該有嚴(yán)格的實(shí)驗(yàn)設(shè)計,分析和解釋來確信實(shí)驗(yàn)結(jié)果。盡管EWAS實(shí)驗(yàn)內(nèi)在不能去掉偶然因素,實(shí)驗(yàn)設(shè)計時排除混雜因素、選擇偏倚、錯誤分類等偏差將會增加關(guān)聯(lián)分析的可信性。

Paste_Image.png

analysis and interpretation of ewas data

1、Statistical analysis: site-by-site analysis.
最基本的分析是單變量分析,看C位點(diǎn)甲基化與表型的關(guān)系,然后加上多重矯正,如FDR矯正。典型性分析用CpG甲基化的平均水平來做線性回歸,用混雜因素來矯正批次效應(yīng)。

2、Statistical analysis: regional changes.
不像GWAS中SNP的數(shù)據(jù),EWAS中DNA甲基化水平是連續(xù)的當(dāng)測量一堆細(xì)胞的時候。并且甲基化很容易測量錯誤并且有很復(fù)雜的層次關(guān)系。甲基化水平在整個基因組是有關(guān)聯(lián)的,可以借助鄰近位點(diǎn)的測量增加power。另外報道的功能相關(guān)的發(fā)現(xiàn)都是與一段基因組區(qū)域相關(guān)的,如CpG島,基因組block,或者1000bp堿基。

3、Statistical analysis: preclustering or grouping CpG sites.
Unsupervised clustering approaches用來降維,有利于找出生物學(xué)上的關(guān)聯(lián)。但是雖然這些方法提供了有效的統(tǒng)計效力,但是是一個粗略的關(guān)聯(lián),或許會丟失特異性的CpG位點(diǎn)。除了不同的甲基化位點(diǎn),不同的甲基化變異位點(diǎn)也是有生物學(xué)意義的。

4、Identifying relevant DMRs.
GWAS中最常用的方法是計算每個位點(diǎn)的p值,控制假陽性如bonferroni,這個方法忽略了effect size,對EWAS來說是有問題的,因?yàn)榇嬖谖⑿〉南到y(tǒng)誤差如批次效應(yīng)或者組織成分不同。另一方面甲基化考察的是一個區(qū)域作為單位,沒有優(yōu)先成分,GWAS方法就不能使用。當(dāng)用區(qū)域作為單位時,就不能用位點(diǎn)數(shù)作為多重矯正了。另外,EWAS作為探索性分析,矯正應(yīng)該保守點(diǎn),有些假陽性是可以接受的。當(dāng)effect size小的時候,獲得極端小的p值是可能的。effect size應(yīng)該根據(jù)功能及生物學(xué)意義來評估。
推薦記錄更多的混雜因素如年齡,性別,民族,樣本操作等并在設(shè)計和分析時考慮到。
DNA甲基化一般考慮與基因表達(dá)相關(guān),甲基化沉默表達(dá),去甲基化開啟表達(dá),另外還有改變?nèi)旧w結(jié)構(gòu)等影響表達(dá)。

5、Functional and gene set enrichment analyses.
富集分析-基因功能,通路,gene set
tools have been developed for assessing differences in the genomic composition, evolutionary conservation and distribution of predicted regulatory regions (EpiGRAPH51) as well as for discovering significantly enriched binding motifs (MEME52) and exploring such differences on a genome-wide scale (EpiExplorer33).

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容