
為了方便大家,把dropbox上我們不好下載的EAS數(shù)據(jù)下載下來分享到了網(wǎng)盤,歡迎大家下載測試。鏈接: https://pan.baidu.com/s/1JtBVvVFycu8672fnSFxgvg 提取碼: 6m2c
學習一個新PRS方法,看B站一有位[南醫(yī)大的同學寫了筆記](PRS-CS - 嗶哩嗶哩 (bilibili.com)
)的,Polygenic prediction via Bayesian regression and continuous shrinkage priors,通過貝葉斯回歸和連續(xù)收縮先驗進行多基因預測。這個方法是2019年發(fā)表在NC上的,好像也不是太新了,不過看到最近的兩篇大文章都在用這個方法或者用了這個方法,還是值得一學和一試的。
摘要
一種多基因預測方法,利用全基因組關聯(lián)匯總統(tǒng)計和外部連鎖不平衡(LD)參考面板推斷單核苷酸多態(tài)性(SNPs)的后驗效應大小。PRS-CS利用了高維貝葉斯回歸框架,與之前的工作不同,它將連續(xù)收縮(CS)置于SNP效應大小之前,這對不同的遺傳結構是穩(wěn)健的,提供了大量的計算優(yōu)勢,并使局部LD模式的多變量建模成為可能。當訓練的樣本量足夠大時(看文章圖表是20K,2萬這種級別),比現(xiàn)有的方法表現(xiàn)要好。我們將PRS-CS應用于伙伴醫(yī)療保健生物庫中6種常見復雜疾病和6種定量性狀的預測,并進一步證明了PRS-CS在預測準確性方面的提高。

前言
PRS匯總了全基因組遺傳標記的作用,以數(shù)量性狀或疾病的遺傳傾向,在預測人類復雜性狀和疾病方面顯示了希望,并可能促進早期檢測、風險分層和醫(yī)療保健機構中常見復雜疾病的預防。
為了最大限度地發(fā)揮PRS的潛力,需要使用統(tǒng)計和計算方法:
- (1)聯(lián)合建立全基因組遺傳標記的模型,充分利用現(xiàn)有信息,同時考慮到局部連鎖不平衡(LD)結構;
- (2)適應復雜性狀和疾病的不同效應量分布,從高度多基因遺傳結構(如身高和精神分裂癥),到小效應量和具有中等到較大效應量的遺傳位點簇的集合(如自身免疫疾病和阿爾茨海默病);
- (3)在沒有獲得個體水平數(shù)據(jù)的情況下,通過對全基因組關聯(lián)研究(GWAS)的匯總統(tǒng)計進行預測;
- (4)保持計算的可伸縮性。
到目前為止,大多數(shù)應用程序都是將p值閾值應用于GWAS匯總統(tǒng)計后,刪除LD中的單核苷酸多態(tài)性(SNPs)。之后,用遺傳標記的子集計算PRS。雖然這種方法在計算和概念上具有優(yōu)勢,并已被用于預測廣泛的表型譜的遺傳傾向,但最近的研究表明,這種傳統(tǒng)的PRS構建方法丟棄了信息,限制了預測的準確性。更復雜的貝葉斯多基因預測方法依賴于GWAS匯總統(tǒng)計數(shù)據(jù),包括LDpred4和最近開發(fā)的正?;旌夏P?,6,可以結合全基因組標記和適應不同的遺傳結構,因此具有更高的性能和靈活性。然而,這些方法中使用的SNP效應大小的先驗類型,稱為離散混合先驗,帶來了令人生畏的計算挑戰(zhàn),并可能導致對局部LD模式的不準確調整。
在這項工作中,我們提出了一種多基因預測方法,PRSCS,它利用貝葉斯回歸框架,并將概念上不同類別的先驗連續(xù)收縮(CS)先驗放在SNP效應大小上。連續(xù)收縮先驗允許標記特異性的自適應收縮(即,應用于每個遺傳標記的收縮量與GWAS中其關聯(lián)信號的強度相適應),因此可以適應不同的潛在遺傳結構。此外,連續(xù)的收縮先驗使得后驗推理中SNP效應大小的共軛塊更新(即,每個LD塊中的SNP效應大小以多元方式聯(lián)合更新,而不是分別順序地更新每個標記的效應大小),從而可以精確地模擬局部LD模式,并提供大量的計算改進。連續(xù)收縮先驗的幾個特例已被應用于數(shù)量性狀預測或基因定位。然而,所有以前的工作都需要個人水平的數(shù)據(jù),并且僅限于小規(guī)模的分析(包括樣本大小和遺傳標記的數(shù)量)。PRS-CS只需要GWAS匯總統(tǒng)計和外部LD參考面板,因此可以應用于更廣泛的設置范圍。
我們使用英國生物銀行的遺傳數(shù)據(jù)進行模擬研究,并證明PRS- cs在廣泛的遺傳結構中顯著地提高了PRS的預測性能,特別是當訓練樣本數(shù)量很大時。我們應用PRS-CS預測了6種常見復雜疾病(乳腺癌(BRCA)、冠心病(CAD)、抑郁癥(DEP)、炎癥性腸病(IBD)、類風濕關節(jié)炎(RA)和2型糖尿病(T2DM))和6種定量特征(身高、體重、高密度脂蛋白、低密度脂蛋白、膽固醇和甘油三酯),并進一步展示了PRS-CS在臨床轉化多基因預測方面的潛力。
附:
1、軟件包地址:https://github.com/getian107/PRScs
2、https://doi.org/10.1038/s41467-019-09718-5