2018-12-09 文獻(xiàn)閱讀——Fine-mapping Review

From genome-wide associations to candidate causal variants by statistical fine-mapping. Daniel J. Schaid, Nature Genetics, 2018.

PMID: 29844615? ? DOI: 10.1038/s41576-018-0016-z

Part 1

? ? ? ? 從復(fù)雜性狀與遺傳標(biāo)記之間的統(tǒng)計(jì)關(guān)聯(lián)到理解可以影響性狀的功能性遺傳變異是一個復(fù)雜的過程。精細(xì)作圖fine-mapping可以選擇遺傳變異并對其進(jìn)行優(yōu)先級排序進(jìn)行后續(xù)研究,但是大量的分析策略和研究設(shè)計(jì)使得選擇最優(yōu)方法頗具挑戰(zhàn)性。文章回顧了不同fine-mapping方法的優(yōu)缺點(diǎn),強(qiáng)調(diào)了影響各種方法效能的主要因素。主要討論的話題包括GWAS結(jié)果的解釋,連鎖不平衡的作用,統(tǒng)計(jì)學(xué)fine-mapping方法,跨種族研究,基因組注釋和數(shù)據(jù)集成以及其他的一些設(shè)計(jì)和分析的問題。

首先對幾個名詞進(jìn)行了解釋——

1. Genome-wide Association Studies:全基因組關(guān)聯(lián)研究

2. Complex traits:復(fù)雜性狀

3. Tag SNPs:標(biāo)簽SNP

4. Linkage disequilibrium:連鎖不平衡

5. Causal variants:因果變異(致病突變?)

6. Fine-mapping:精細(xì)作圖

7. Penalized regression:懲罰回歸

8. Summary statistics:合并統(tǒng)計(jì)量

9. Trans-ethnic:跨種族

10. Multiple testing corrections:多重檢驗(yàn)校正

11. Statistical power:統(tǒng)計(jì)效能

12. Genotype imputation:分型填補(bǔ)

13. Cross validation:交叉驗(yàn)證

14. Prior probability:先驗(yàn)概率

15. Posterior inclusion probability:后驗(yàn)概率

16. Expression quantitive trait loci:表達(dá)數(shù)量性狀座位eQTL

? ? ? ? 常見復(fù)雜人類性狀(包括數(shù)量性狀和疾?。┩ǔJ怯啥喾N環(huán)境和遺傳因素引起的。GWAS被廣泛用于識別染色體上的基因組區(qū)域,這些區(qū)域決定復(fù)雜性狀的遺傳。到目前為止,美國國家人類基因組研究所NHGRI-歐洲生物信息學(xué)研究所EBI的GWAS Catalog已經(jīng)收錄了47681個與復(fù)雜性狀有統(tǒng)計(jì)關(guān)聯(lián)的SNP,代表了2185個關(guān)聯(lián)P值小于10-5的關(guān)聯(lián)性狀。這種成功當(dāng)歸功于包含大量SNP且成本效益較高的分型矩陣。但是微矩陣上的SNP通常不會直接導(dǎo)致這種性狀發(fā)生。相反,之所以選擇微矩陣上的標(biāo)簽SNP是因?yàn)樗鼈兣c相鄰的SNP高度相關(guān)(即具有大量的連鎖不平衡LD),因此可以作為較大基因組區(qū)域內(nèi)未檢測到的SNP的替代。標(biāo)簽SNP與性狀之間的關(guān)聯(lián)可能是間接的,標(biāo)簽SNP與因果SNP關(guān)聯(lián),而因果SNP與性狀直接關(guān)聯(lián)。因?yàn)镾NP之間的連鎖不平衡是十分復(fù)雜的,所以找到其潛在的因果變異十分具有挑戰(zhàn)性。這就是fine-mapping發(fā)揮作用的時候。我們在此討論的原則也適用于通過全基因組測序研究中常見遺傳變異的分析。

? ? ? ? Fine-mapping可以找到復(fù)雜性狀的遺傳變異為基因組區(qū)域與性狀之間的關(guān)聯(lián)提供證據(jù)并假設(shè)至存在一種因果變異。在GWAS確定了至少一個SNP與性狀有較強(qiáng)的關(guān)聯(lián)(如P<5×10-8)后,fine-mapping通常依據(jù)Fig.1中的流程進(jìn)行。這些步驟在下文中會詳細(xì)解釋,但是一般的策略是使用GWAS獲得與性狀相關(guān)聯(lián)的SNP列表來識別感興趣的區(qū)域。之后對每個區(qū)域進(jìn)行可視化,尋找其LD結(jié)構(gòu)和已知的定位到該區(qū)域的基因。由于一次定位一個因果變異較為簡單,因此可將每個區(qū)域劃分為對性狀具有獨(dú)立效應(yīng)的子區(qū)域,然后進(jìn)行fine-mapping。我們討論的策略被列于Fig.2?;谝阎幕蚪M注釋對選擇的SNP可能的功能進(jìn)行進(jìn)一步評估,這樣優(yōu)于基于實(shí)驗(yàn)室功能研究的高花費(fèi)和高耗時。

? ? ? ? 這篇綜述主要聚焦于精細(xì)定位感興趣區(qū)域的統(tǒng)計(jì)學(xué)方法。首要目標(biāo)是確定哪些變異最可能是功能性的并量化證據(jù)的強(qiáng)度。這些信息可以用于后續(xù)的研究,例如對特定候選區(qū)域進(jìn)行大規(guī)模重復(fù)研究或?qū)嶒?yàn)室功能研究。雖然原始GWAS可以提供一個區(qū)域可能存在因果變異的統(tǒng)計(jì)學(xué)證據(jù),仍然需要其他的統(tǒng)計(jì)學(xué)方法來區(qū)分可能的功能變異與那些僅與功能突變存在相關(guān)性的變異。出現(xiàn)了一系列的方法,從最簡單的啟發(fā)式方法到高維數(shù)據(jù)的懲罰回歸及更加精煉的貝葉斯方法。一些方法可以用于單個研究或meta分析獲得的多個研究。當(dāng)合并多個研究時,一些特殊的方法被用于簡化基于合并統(tǒng)計(jì)量數(shù)據(jù)的研究。當(dāng)不同研究中主體的種族不經(jīng)不一時,跨種族fine-mapping有時可以提高fine-mapping的分辨率。我們對每個話題都進(jìn)行了討論,包括其優(yōu)勢、劣勢和挑戰(zhàn)。我們還對影響fine-mapping效能和分辨率的主要因素進(jìn)行了分析,以便為研究設(shè)計(jì)提供指導(dǎo)。我們綜述了fine-mapping基因組注釋的使用,以及基因表達(dá)數(shù)據(jù)與GWAS數(shù)據(jù)的聯(lián)合分析。最后還討論了隨著我們對復(fù)雜性狀遺傳基礎(chǔ)的理解的發(fā)展未來還存在的挑戰(zhàn)。


Fig.1 從GWAS到fine-mapping選擇SNP的經(jīng)典流程 【Based on genome-wide association study (GWAS) P values summarised in a Manhattan plot, a list of single-nucleotide polymorphisms (SNPs) that achieve genome-wide statistical significance (that is, P value <5*e-8) is used to determine regions of interest for fine-mapping. Each region is typically explored according to the structure of linkage disequilibrium (LD) among SNPs using Haploview plots. Statistical associations are viewed with LocusZoom plots that illustrate the patterns of association of each SNP with the lead SNP, as well as the annotation of genes in the region. The regions can then be partitioned into independent subregions to ease computational burden, based on statistical models that evaluate the simultaneous effects of multiple SNPs on a trait. Statistical fine-mapping is conducted in each region, using one of the methods illustrated in Fig.2. The SNPs selected from fine-mapping are then annotated with genomic features to prioritize follow-up functional studies. eQTL, expression quantitative trait locus. Figure is reproduced with permission from Ref.(Haralambieva, I. H. et al. Genome-wide associations of CD46 and IFI44L genetic variants with neutralizing antibody response to measles vaccine.Hum. Genet. 136, 421–435 (2017)】


Fig.2 Fine-mapping策略的假設(shè)示例【All subfigures are based on LocusZoom-style illustrations of marginal single-nucleotide polymorphism (SNP) associations. The -log10(P) values are presented on the left y axis, and variant positions are on the x axis. The gold diamond for each locus represents the peak SNP. The results for other SNPs are colored by descending degree of linkage disequilibrium (LD) with the peak SNP (ordered red, orange, green and blue dots). The purple bars represent additional variant-level statistics produced by fine-mapping (that is β-values for penalized regression and posterior inclusion probabilities (PIPs) for Bayesian methods), and the corresponding scale is on the right y axis. The light grey boxes represent the regions selected by fine-mapping.】

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容