Nature Genetics | 200萬人超大規(guī)模GWAS數(shù)據(jù)分析
原創(chuàng)?風(fēng)不止步?圖靈基因?今天
收錄于話題#前沿生物大數(shù)據(jù)分析
撰文:風(fēng)不止步
IF=38.333
推薦度:?????
亮點:
研究利用高效的基于稀疏矩陣的算法開發(fā)一種基于GLMM的GWA工具fastGWA-GLMM,它比最先進的工具快幾倍到幾個數(shù)量級(UKB)?,可擴展到數(shù)百萬人的隊列。常見和稀有變體的fastGWA-GLMM測試統(tǒng)計數(shù)據(jù)在零值下得到較好的校準,即使對于具有極端病例控制比的性狀也是一樣。證明使用在大型隊列中估算基因型數(shù)據(jù),可發(fā)現(xiàn)二元復(fù)雜性狀的罕見變異。

2021年11月04日,西湖大學(xué)終身教授楊劍博士等人在《Nature Genetics》上發(fā)表了一篇“A generalized linear mixed model association tool for biobank-scale data”的文章。
生物樣本庫數(shù)據(jù)的規(guī)模給GWA分析方法帶來了巨大的計算挑戰(zhàn)。為生物樣本庫規(guī)模的數(shù)據(jù)積極開發(fā)了新的方法和工具,包括基于線性回歸的工具,如?PLINK2和?BGENIE,以及基于線性混合模型(LMM)的工具,如DISSECT、BOLT-LMM和fastGWA。基于LMM的方法通常優(yōu)于基于線性回歸的方法,主要是因為它們可以解釋相關(guān)性,而無需移除相關(guān)個體。與基于LMM的方法相比,基于GLMM的方法更適合二元特征。不幸的是,大多數(shù)基于GLMM的GWA方法無法擴展到大型生物庫數(shù)據(jù)。
研究開發(fā)一種計算效率高的關(guān)聯(lián)方法fastGWA-GLMM,用于對UKB等大型隊列中的二元表型進行GWA分析。在包含400,000個個體和11,842,647個變體的數(shù)據(jù)集中進行測試時,fastGWA-GLMM?的效率比現(xiàn)有方法高幾倍甚至幾個數(shù)量級,具體取決于樣本大小、分析的特征數(shù)量以及用于每個分析工作的CPU數(shù)量,展示fastGWA-GLMM對200萬個人的GWAS數(shù)據(jù)的可擴展性。GLMM框架的實施允許用戶在存在相關(guān)性的情況下在GWA分析中保留最大數(shù)量的個體,并且SPA校正的結(jié)合可以正確校準具有極端病例控制比的特征的測試統(tǒng)計數(shù)據(jù)。fastGWA-GLMM在UKB中的2,989個二元特征的應(yīng)用進一步證明了其實用性和效率。
fastGWA-GLMM相對于LR-unRel的主要優(yōu)勢在于它不需要從研究中刪除相關(guān)個體,因為相關(guān)性可以通過譜系相關(guān)性矩陣或稀疏GRM很好地解釋。fastGWA-GLMM相對于LR-unRel的另一個優(yōu)勢是它的效率。與許多其他基于GLMM的方法一樣,fastGWA-GLMM使用分數(shù)統(tǒng)計進行關(guān)聯(lián)測試,計算相對容易。相比之下,LR-unRel使用基于迭代重新加權(quán)最小二乘法的?Wald測試,需要對每個變體重復(fù)求解完整模型,因此比分數(shù)測試慢得多,尤其是對于用協(xié)變量分析。
(圖1:根據(jù)空變體計算的?FPR。)
當(dāng)應(yīng)用于二元特征時,fastGWA-GLMM?相對于基于?LMM?的方法的優(yōu)勢可以概括為兩個方面。首先是效果大小的更好的可解釋性,因為可以直接使用自然對數(shù)將來自fastGWA-GLMM的?βs轉(zhuǎn)換為優(yōu)勢比。然而,基于?LMM?的方法中的這種轉(zhuǎn)換是間接的,需要復(fù)雜的近似值。第二個方面是通過?SPA?校正更好地控制?fastGWA-GLMM?的FPR。由于在將基于LMM的方法應(yīng)用于二元性狀時SPA校正不適用,因此常見的策略是排除具有低病例對照比的性狀(例如,≤1:99)和具有低MAF的變異(例如,<0.01 ),導(dǎo)致有價值信息的大量丟失。另一種策略是對控制進行下采樣,這對于常見的變體表現(xiàn)相當(dāng)不錯。然而,對于罕見的變體,雖然這種策略可以減少?LMM?測試統(tǒng)計中的膨脹,但剩余的膨脹足夠大以產(chǎn)生假陽性關(guān)聯(lián)。相比之下,通過使用fastGWA-GLMM獲得所有?3,821,959?個稀有變異的經(jīng)過良好校準的匯總統(tǒng)計數(shù)據(jù),其中在非常嚴格的顯著性水平上確定了數(shù)百個與特征相關(guān)的變異,包括已知的關(guān)聯(lián)。
(圖?2:fastGWA-GLMM?和?SAIGE?的運行時和內(nèi)存使用比較。)
SAIGE是一種使用密集GRM的基于GLMM的方法。除了GRM設(shè)置之外,fastGWA-GLMM?和SAIGE之間還有其他三個主要區(qū)別。首先,fastGWA-GLMM使用了一種基于網(wǎng)格搜索的算法fastGWA-B-REML估計方差分量(Methods),它比SAIGE中使用的平均信息REML算法更高效。其次,由于使用密集的GRM,SAIGE可能會受到近端污染。第三,fastGWA-GLMM不是使用協(xié)變量調(diào)整的基因型數(shù)據(jù)來計算每個變體的評分測試統(tǒng)計量,而是首先使用未調(diào)整(但以均值為中心)的基因型數(shù)據(jù)來計算近似評分測試統(tǒng)計量,然后重新計算精確測試使用協(xié)變量調(diào)整的基因型數(shù)據(jù)對?χ2?檢驗統(tǒng)計量≥4?的變體進行統(tǒng)計。這種策略允許fastGWA-GLMM省略協(xié)變量矩陣和約95%的基因型向量之間的矩陣乘法計算。已經(jīng)確認近似協(xié)變量調(diào)整方法和精確方法之間的檢驗統(tǒng)計差異可以忽略不計。只有χ2檢驗統(tǒng)計量<4的變體可能會遭受輕微的緊縮,這確實會影響在全基因組顯著性水平上檢測關(guān)聯(lián)的能力。當(dāng)協(xié)變量的數(shù)量很大時,此策略特別有用。
(圖?3:fastGWA-GLMM?在?200?萬個人的偽隊列中的運行時間和內(nèi)存使用情況。)
fastGWA-GLMM是一種高效的基于GLMM的方法,適用于生物庫規(guī)模數(shù)據(jù)中許多二元表型的GWA分析。不同參數(shù)設(shè)置下的廣泛模擬和近3,000個UKB性狀的真實數(shù)據(jù)分析證明了其統(tǒng)計魯棒性和計算效率。相信fastGWA-GLMM是當(dāng)前和即將到來的大規(guī)模數(shù)據(jù)的非常有用的工具,本研究發(fā)布的匯總統(tǒng)計數(shù)據(jù)將有助于未來深入了解許多健康相關(guān)結(jié)果的遺傳基礎(chǔ)。
教授介紹
楊劍博士??西湖大學(xué)終身教授
楊劍教授主要致力于統(tǒng)計遺傳學(xué)、基因組學(xué)研究,以及人類復(fù)雜性狀和疾?。ㄈ纾荷砀?、肥胖、精神分裂和癌癥)的大數(shù)據(jù)分析。他和同事提出的一系列統(tǒng)計遺傳學(xué)分析方法已經(jīng)成為全基因組關(guān)聯(lián)研究(Genome-WideAssociation Study)領(lǐng)域的主流方法;他們在2010和2011年提出的利用全基因組單核苷酸多態(tài)數(shù)據(jù)在自然群體中估計遺傳率的方法(即GCTA-GREML方法),找到解決“遺傳率丟失”(missingheritability)問題的理論突破口。截止2020年7月,楊劍總共發(fā)表160多篇學(xué)術(shù)論文,其中35篇ESI高被引論文;所發(fā)表的論文共被引用27,000多次(數(shù)據(jù)來自Web of Science)。
西湖大學(xué)統(tǒng)計遺傳學(xué)實驗室主要致力于研究人類基因組在群體內(nèi)和群體間的變異,并研究這些變異與健康的關(guān)聯(lián)。目前主要的研究方向包括(但不限于)如下幾個方面:
1.?基因組變異和健康
2.?整合多組學(xué)數(shù)據(jù)研究疾病的遺傳機制
3.?疾病的遺傳風(fēng)險評估
4.?癌癥基因組學(xué)
5.?高性能計算生物學(xué)分析方法和工具的開發(fā)
參考文獻
Longda Jiang, Zhili Zheng et al.A generalizedlinear mixed model association tool for biobank-scale data.(2021)