- 僅使用chr:pos 轉(zhuǎn)換 rsID時的問題:
- 對應(yīng)位點(diǎn)rsID不存在,可能是新變異等等原因,通??梢砸詂hr:pos:ref:alt的形式替代。但還有個問題就是Alt allele不存在,比如rs123456 對應(yīng)chr1:123456的 T>C,A 而你手里的數(shù)據(jù)是chr1:123456的 T>G, 那問題來了,這應(yīng)不應(yīng)該給他們相同的rsID?僅憑位點(diǎn)和類型來說應(yīng)該給,或許下個版本的dbsnp會加上這個變異,但其實(shí)我也沒有明確的答案(歡迎評論區(qū)討論),不過實(shí)際操作中我會傾向于保守一點(diǎn),用chr:pos:ref:alt 而不是rsID來表示。
- 如上rsID的介紹所述,rsID并不止只用來表示單一核苷酸的SNP,也會表示其他變異類型,這會導(dǎo)致同一位點(diǎn)有多個rsID表示的變異,最常見的就是某個位點(diǎn)同時有SNP和INDEL,僅憑chr:pos信息而不管allele的話會混淆并大量的錯誤匹配SNP與INDEL的rsID,后續(xù)功能分析會引起很大的不便,舉個例子: rs123456 對應(yīng)chr1:123456的 T>C ,而rs987654 同樣對應(yīng)chr1:123456這個位置,但是這個變異是個INDEL, T>TA, 如果僅憑chr:pos匹配會混淆SNP與INDEL,雖然是同樣的位置,但變異造成的影響會完全不同。解釋時本應(yīng)是rs987654這個INDEL造成的影響卻錯誤地解釋到rs123456這個SNP上,這種情況應(yīng)該被避免。這么做破壞了rsID的唯一性特點(diǎn),是不是有點(diǎn)違背初衷,本末倒置了。
- 還有一個問題就是手頭數(shù)據(jù)里的變異是否已經(jīng)標(biāo)準(zhǔn)化? 未標(biāo)準(zhǔn)化的變異的chrpos是不準(zhǔn)確的,進(jìn)行左對齊與節(jié)儉原則的標(biāo)準(zhǔn)化后可能產(chǎn)生位移,用未標(biāo)準(zhǔn)化chrpos匹配時可能會錯位匹配到其他相鄰的位點(diǎn)上。比如手頭的變異可能是 chr1:123456:AA:AT ,標(biāo)準(zhǔn)化后則是chr1:123455:A:T,向前移了一位,如果你看過1000genome的原始數(shù)據(jù)就會發(fā)現(xiàn)這樣的情況大量存在,所以應(yīng)當(dāng)注意(參考:GWASLab:變異的標(biāo)準(zhǔn)化 Variant Normalization)
- 0起點(diǎn)還是1起點(diǎn)的參考系問題,處理數(shù)據(jù)時應(yīng)該注意,這里不做過多贅述。(根據(jù)基因的postion以及正負(fù)鏈的方向)
rsID 向 chr:pos 某參考基因組版本的位置轉(zhuǎn)換時,會遇到的問題:
- 設(shè)計上rsID是唯一對應(yīng)某個變異的,但實(shí)際上由于dbSNP版本的不同或其他原因,手頭GWAS的sumstats里的rsID可能對應(yīng)兩個位置, 而多個rsID又可能對應(yīng)同一個位置上相同的變異
- 在對應(yīng)參考基因組版本上的位置不存在等等
解決辦法
rsID轉(zhuǎn)換chrpos時要盡量明確原始數(shù)據(jù)的dbsnp版本,能確定版本的時候用對應(yīng)版本,不能的時候要制定統(tǒng)一標(biāo)準(zhǔn)(為了研究的可重復(fù)性),轉(zhuǎn)換時要使用統(tǒng)一的dbsnp的版本。
而chrpos轉(zhuǎn)換rsID時,不貪多,不求快,老老實(shí)實(shí)**用先確認(rèn)標(biāo)準(zhǔn)化,然后利用注釋的方法,也就是相應(yīng)基因組版本的 位置chr:pos以及 ref與alt全部與rsID全部匹配時才進(jìn)行轉(zhuǎn)換。