GWAS質控要點

GWAS質控對于后續(xù)關聯(lián)分析及曼哈頓圖和QQ圖的結果至關重要,本文參考多種資料,試圖評價質控對結果的影響,為大家分析GWAS結果做一個參考。
  • 首先文獻中認為從成千上萬的病例和對照中移除少數(shù)人對整體幾乎沒有影響,并且從目前GWAS的大量基因分型SNP中除去小部分可能有關聯(lián)的SNP也不會顯著降低研究的整體效能,但研究中每個刪除的SNP都有可能是一個被忽略的疾病關聯(lián),因此認為去除一個SNP的影響潛在地大于去除一個個體(盡管基因型插補可用于恢復這些SNP),故主張先在“每個被試”基礎上實施QC,后在“每個SNP”基礎上進行QC,以最大限度地提高研究中剩余的SNP數(shù)。這種方法可防止由于小部分基因分型差的個體而錯誤地去除某個SNP,但是可能會由于小部分基因分型差的SNP而錯誤地去除一些個體。
    [圖片上傳中...(image.png-7e3fc5-1556010351113-0)]

一般質控步驟:

image.png

樣本的質控(Per-individual QC)

1、刪除性別錯誤的個體
通過X染色體雜合率計算性別,性別錯誤的個體可能存在DNA污染的問題
2、刪除SNP缺失率過高或雜合率過高的個體,如>95%

  • SNP缺失率過高說明DNA質量及分型質量不好;
  • 雜合率過高說明樣本可能有污染,過低說明樣本可能有親緣關系。一般case/control研究的樣本都無親緣關系,如果有一級或二級親緣關系的樣本,該家族基因型會導致整個群體基因型偏倚。
  • 雜合率=(N ? O)/N,N:非缺失基因型數(shù)量,O:觀察到的個體純合基因型數(shù)量,一般刪除超過±3 SD的樣本
    3、刪除有親緣關系的樣本
  • 親緣關系可以用identity by state(IBS)來衡量,計算之前首先要保證SNP是相互獨立的,這就要先把基因組中連鎖區(qū)域的SNP去掉(如HLA區(qū)域的SNP),一般設置滑動窗口(如 50 kb),計算該窗口內(nèi)的SNP連鎖率,將大于閾值(一般設置r2 > 0.2)的SNP都去掉。
  • 一般IBS=1認為是同一個樣本或同卵雙胞胎,IBD = 0.5是一級親屬,IBD = 0.25是二級親屬,IBD = 0.125是三級親屬,另外有可能是樣本污染或者分型錯誤導致。一般設置閾值為IBD > 0.1875。
    4、人群層次矯正
  • 混雜因素是造成case-control差異的主要原因,特別是人群層次(population stratification)。
  • 校正人群層次方法最常用的是組成分分析(principal component analysis (PCA)),PCA將高維的數(shù)據(jù)提取為低維數(shù)據(jù),以便用幾個主成分來代表整個數(shù)據(jù)。
  • 一般將前10個PCA成分作為協(xié)變量加入后面的關聯(lián)分析模型,但是加入幾個根據(jù)經(jīng)驗調整。
位點的質控(Per-marker QC)

位點質控是GWAS成功與否的核心,因為可能會把與疾病相關的SNP位點刪掉。
1、刪除缺失率過高的SNP位點
根據(jù)情況可以設置閾值為95%-98%。一般先設置個寬松的閾值,如0.2,經(jīng)過樣本質控后再設置比較嚴格的閾值,如0.02
2、刪除偏離哈迪溫伯格平衡的SNP位點(HWE)
偏離HWE的SNP位點可能是分型錯誤,但是case中偏離HWE的位點可能與表型相關,因此case和control閾值不一樣。一般case設置為1e-6,control設置為1e-10;對于較小的數(shù)據(jù)可以設置為1e10-5。plink軟件會自動只對control進行HWE質控。
3、刪除case和control中缺失率不同的SNP位點
case和control中缺失率不同可能意味著case和control不是一批做出來的,刪除這種位點可以有效減少混雜因素的影響。
4、刪除等位基因頻率(MAF)較小的SNP位點
芯片中MAF較小的SNP由于算法原因錯誤率較高,因此一般將MAF 1–2%以下的刪除,但是樣本量較小的話該閾值要提高,樣本量小分型的準確度就小。另外MAF較小的位點不適用關聯(lián)分析的統(tǒng)計方法。

候選基因方法研究的質控(Candidate-gene association)
  • 候選基因方法研究的質控與GWAS不同,GWAS研究中99%的SNP位點與表型都無關,這些位點可以用來發(fā)現(xiàn)混雜因素,但是候選基因方法就不行。候選基因方法的SNP位點經(jīng)過選擇,本身位點較少,與表型無關的SNP也較少,因此不能通過位點的分型失敗率和雜合率來評估DNA質量,群體信息和親緣關系也沒法評估。
  • 可以進行的是對樣本的質控,但是閾值需要根據(jù)SNP的數(shù)量進行調整。
  • 如果實驗樣本與GWAS樣本數(shù)量類似,仍然可以采用GWAS對位點的過濾方法
  • 缺失率>5%,最好是檢測分型的方法是否有問題,control中對HWE的過濾也可以執(zhí)行。
基因型填補(imputation)

待補充

填補后質控(Post-imputation quality control)
  • 千人基因組大概有83 million變異位點,經(jīng)過填補后有許多質量不好的位點,需要過濾掉。
  • 去除MAF = 0的位點
  • 去除MAF<0.01 和 info>0.3的位點。info值用來衡量填充位點的質量,一般較差的位點info <0.15,較好的位點info >0.85。所以過濾閾值一般在0.15-0.85之間。對于同一個位點來說,MAF值越小,info值也越小??梢詫FA值和info值畫出柱狀圖,找到一個比較好的閾值進行過濾。
  • 去除缺失率過多的位點(98%以上)
相關軟件

PLINK, GenABEL, GS2、snpMatrix

參考:Anderson CA, Pettersson FH, Clarke GM, Cardon LR, Morris AP, Zondervan KT. Data quality control in genetic case-control association studies. Nat Protoc 2010; 5: 1564-1573.
Marees AT, de Kluiver H, Stringer S, Vorspan F, Curis E, Marie-Claire C et al. A tutorial on conducting genome-wide association studies: Quality control and statistical analysis. Int J Meth Psych Res 2018; 27: e1608.

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容