狠狠爱资源站,久久日韩字幕一区

GWAS質控對于后續(xù)關聯(lián)分析及曼哈頓圖和QQ圖的結果至關重要，本文參考多種資料，試圖評價質控對結果的影響，為大家分析GWAS結果做一個參考。

首先文獻中認為從成千上萬的病例和對照中移除少數(shù)人對整體幾乎沒有影響，并且從目前GWAS的大量基因分型SNP中除去小部分可能有關聯(lián)的SNP也不會顯著降低研究的整體效能，但研究中每個刪除的SNP都有可能是一個被忽略的疾病關聯(lián)，因此認為去除一個SNP的影響潛在地大于去除一個個體（盡管基因型插補可用于恢復這些SNP），故主張先在“每個被試”基礎上實施QC，后在“每個SNP”基礎上進行QC，以最大限度地提高研究中剩余的SNP數(shù)。這種方法可防止由于小部分基因分型差的個體而錯誤地去除某個SNP，但是可能會由于小部分基因分型差的SNP而錯誤地去除一些個體。
[圖片上傳中...(image.png-7e3fc5-1556010351113-0)]

一般質控步驟：

image.png

樣本的質控（Per-individual QC）

1、刪除性別錯誤的個體
通過X染色體雜合率計算性別，性別錯誤的個體可能存在DNA污染的問題
2、刪除SNP缺失率過高或雜合率過高的個體，如>95%

SNP缺失率過高說明DNA質量及分型質量不好；
雜合率過高說明樣本可能有污染，過低說明樣本可能有親緣關系。一般case/control研究的樣本都無親緣關系，如果有一級或二級親緣關系的樣本，該家族基因型會導致整個群體基因型偏倚。
雜合率=(N ? O)/N，N：非缺失基因型數(shù)量，O：觀察到的個體純合基因型數(shù)量，一般刪除超過±3 SD的樣本
3、刪除有親緣關系的樣本
親緣關系可以用identity by state（IBS）來衡量，計算之前首先要保證SNP是相互獨立的，這就要先把基因組中連鎖區(qū)域的SNP去掉（如HLA區(qū)域的SNP），一般設置滑動窗口（如 50 kb），計算該窗口內(nèi)的SNP連鎖率，將大于閾值（一般設置r2 > 0.2）的SNP都去掉。
一般IBS=1認為是同一個樣本或同卵雙胞胎，IBD = 0.5是一級親屬，IBD = 0.25是二級親屬，IBD = 0.125是三級親屬，另外有可能是樣本污染或者分型錯誤導致。一般設置閾值為IBD > 0.1875。
4、人群層次矯正
混雜因素是造成case-control差異的主要原因，特別是人群層次（population stratification）。
校正人群層次方法最常用的是組成分分析（principal component analysis (PCA)），PCA將高維的數(shù)據(jù)提取為低維數(shù)據(jù)，以便用幾個主成分來代表整個數(shù)據(jù)。
一般將前10個PCA成分作為協(xié)變量加入后面的關聯(lián)分析模型，但是加入幾個根據(jù)經(jīng)驗調整。

位點的質控（Per-marker QC）

位點質控是GWAS成功與否的核心，因為可能會把與疾病相關的SNP位點刪掉。
1、刪除缺失率過高的SNP位點
根據(jù)情況可以設置閾值為95%-98%。一般先設置個寬松的閾值，如0.2，經(jīng)過樣本質控后再設置比較嚴格的閾值，如0.02
2、刪除偏離哈迪溫伯格平衡的SNP位點（HWE）
偏離HWE的SNP位點可能是分型錯誤，但是case中偏離HWE的位點可能與表型相關，因此case和control閾值不一樣。一般case設置為1e-6，control設置為1e-10；對于較小的數(shù)據(jù)可以設置為1e10-5。plink軟件會自動只對control進行HWE質控。
3、刪除case和control中缺失率不同的SNP位點
case和control中缺失率不同可能意味著case和control不是一批做出來的，刪除這種位點可以有效減少混雜因素的影響。
4、刪除等位基因頻率（MAF）較小的SNP位點
芯片中MAF較小的SNP由于算法原因錯誤率較高，因此一般將MAF 1–2%以下的刪除，但是樣本量較小的話該閾值要提高，樣本量小分型的準確度就小。另外MAF較小的位點不適用關聯(lián)分析的統(tǒng)計方法。

候選基因方法研究的質控（Candidate-gene association）

候選基因方法研究的質控與GWAS不同，GWAS研究中99%的SNP位點與表型都無關，這些位點可以用來發(fā)現(xiàn)混雜因素，但是候選基因方法就不行。候選基因方法的SNP位點經(jīng)過選擇，本身位點較少，與表型無關的SNP也較少，因此不能通過位點的分型失敗率和雜合率來評估DNA質量，群體信息和親緣關系也沒法評估。
可以進行的是對樣本的質控，但是閾值需要根據(jù)SNP的數(shù)量進行調整。
如果實驗樣本與GWAS樣本數(shù)量類似，仍然可以采用GWAS對位點的過濾方法
缺失率>5%，最好是檢測分型的方法是否有問題，control中對HWE的過濾也可以執(zhí)行。

基因型填補（imputation）

待補充

填補后質控（Post-imputation quality control）

千人基因組大概有83 million變異位點，經(jīng)過填補后有許多質量不好的位點，需要過濾掉。
去除MAF = 0的位點
去除MAF<0.01 和 info>0.3的位點。info值用來衡量填充位點的質量，一般較差的位點info <0.15，較好的位點info >0.85。所以過濾閾值一般在0.15-0.85之間。對于同一個位點來說，MAF值越小，info值也越小?？梢詫FA值和info值畫出柱狀圖，找到一個比較好的閾值進行過濾。
去除缺失率過多的位點（98%以上）

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

GWAS質控要點

GWAS質控要點

GWAS質控對于后續(xù)關聯(lián)分析及曼哈頓圖和QQ圖的結果至關重要，本文參考多種資料，試圖評價質控對結果的影響，為大家分析GWAS結果做一個參考。

一般質控步驟：

樣本的質控（Per-individual QC）

位點的質控（Per-marker QC）

候選基因方法研究的質控（Candidate-gene association）

基因型填補（imputation）

填補后質控（Post-imputation quality control）

相關軟件

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

GWAS質控要點

GWAS質控對于后續(xù)關聯(lián)分析及曼哈頓圖和QQ圖的結果至關重要，本文參考多種資料，試圖評價質控對結果的影響，為大家分析GWAS結果做一個參考。

一般質控步驟：

樣本的質控（Per-individual QC）

位點的質控（Per-marker QC）

候選基因方法研究的質控（Candidate-gene association）

基因型填補（imputation）

填補后質控（Post-imputation quality control）

相關軟件

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

GWAS質控對于后續(xù)關聯(lián)分析及曼哈頓圖和QQ圖的結果至關重要，本文參考多種資料，試圖評價質控對結果的影響，為大家分析GWAS結果做一個參考。