作者:陳美佳
一、問題描述
基因型數(shù)據(jù)的缺失分為遺傳性缺失和檢測性缺失:
1、遺傳性缺失:個體遺傳信息的變異(例如,這個位點DNA片段真實缺失)導致的基因型缺失。
2、檢測性缺失:由于檢測技術的局限、錯誤等導致的信息丟失。各類基因型檢測技術都會產(chǎn)生檢測性的基因型缺失。低深度全基因組重測序(一般平均深度低于10X),不可避免會產(chǎn)生大量隨機缺失。
重測序概念:全基因組重測序指在已知某物種基因組序列的基礎上, 對該物種不同個體的整個基因組序列進行測序, 差異性分析個體或群體,可以找到大量的變異位點。

二、為什么要進行基因型填充
1、有些軟件分析過程中不允許有缺失值。
2、高密度基因分型(或測序)是昂貴的,填充基因型數(shù)據(jù)可以比基因分型便宜得多。增加標記密度,節(jié)省成本。
三、基因型填充的原理
基因型填充基于血統(tǒng)的同一性(IBD)。如果兩個或兩個以上子代的等位基因序列遺傳同一祖先等位基因,并未發(fā)生重組,兩個子代具有相同的等位基因序列,這就是血統(tǒng)同一性。因此具有已知親緣關系的個體之間具有共享的單倍型,單倍型隨祖先一起遺傳,反映連鎖不平衡。
連鎖不平衡區(qū)塊的存在就意味著我們可以通過構建相關的數(shù)學模型,來把這樣的連鎖關系求解出來。通過構建基于隱馬爾可夫模型(HMM)等的Phasing算法就可以依據(jù)測序數(shù)據(jù),反推出每個個體最有可能的單倍型。定相(Phasing)后形成的單倍型參考序列集(Reference panel)是基因型填充必須的數(shù)據(jù)材料。
參考群體完整的基因型信息可以提供單倍型信息,通過對比待填充樣本和參考模板,找到兩者之間共有的單倍型,然后就可以將匹配上的參考模板中的位點復制到待填充樣本中。
相關概念:
1.連鎖不平衡:兩個等位基因如果恰好在同一條染色體上,那么它們在遺傳給子代的時候就不是隨機分配的了,基本上在一起傳遞,我們就稱兩個基因是存在連鎖關系的,基因在遺傳時出現(xiàn)連鎖的現(xiàn)象就叫做連鎖不平衡。
2.單倍型:單倍體基因型的簡稱,指同一染色體上若干個決定同一性狀的緊密連鎖的基因構成的基因型,單倍型可以指至少兩個基因座或整個染色體。
3.定相:現(xiàn)在流行的NGS測序技術,都是把序列打亂混在一起測序的,測完之后,我們是無法直接區(qū)分這些序列中哪一個是父源,哪一個是母源的。我們通常都只是檢測出基因組上有哪些變異,以及這些變異的堿基組成(純合、雜合),也就是平時所說的基因型(Genotype)。只有經(jīng)過定相,才能夠實現(xiàn)這個區(qū)分。

四、基因型填充的步驟
1、從參考模板非缺失的位點中,總結這個區(qū)域的基因型規(guī)律,并分類。其實就是分析各個區(qū)域的單倍型組成;
2、根據(jù)某樣本缺失位點的上下其他非缺失位點,判斷這個區(qū)域屬于哪種單倍型。然后根據(jù)所屬單倍型的基因型補充該樣本的缺失位點;
例如:根據(jù)缺失樣本有限的基因型信息(僅有3個位點),就可以判斷這個樣本與參考單倍型集中的哪種單倍型最為相似。然后,將對應的最相似的單倍型賦予給該樣本,從而讓該樣本獲得完整的基因型。

五、兩種基本的填充場景
1、從一個高密度的基因型參考面板到一個標記密度較低的實驗群體的填充
這種方法依賴于這樣一種假設,即參考群體準確地代表了要填充個體的單倍型群體頻率,因此待填充個體應該從與參考基因型集相同的群體中取樣。我們使用模擬數(shù)據(jù)對500個個體在兩個常染色體上的SNPs進行研究。應該注意的是,在這個例子中,我們模擬了連鎖不平衡相對較低的標記(標記間的平均r2=0.05)。這是有效種群規(guī)模較大的種群的典型情況。
r2表示連鎖不平衡的程度,當r2=1,表示連鎖完全不平衡,沒有重組;當r2=0,表示連鎖完全平衡,隨機組合。
我們對數(shù)據(jù)進行分割,以創(chuàng)建兩個個集合。
(1)第一個集合包含一個由100個個體組成的簡化面板,我們對其進行填充。對于這些個體,每五個標記保留一個標記的信息,其余標記刪除。
(2)剩下的400個個體被放在一個參考集中,在這個參考集中所有的標記都是基因分型的。
請注意,兩個文件中的個體樣本(列)不同。參考面板具有400個個體,目標樣本有100個個體,兩者個體名稱不重疊。還要注意,參考面板的標記(行)比填充集多得多;文件之間紅色的標記是相同的。參考數(shù)據(jù)集中有但在目標集中沒有的標記將被填充并在輸出文件中輸出。
待填充的目標文件:

參考文件:

現(xiàn)在我們已經(jīng)為Beagle創(chuàng)建了正確的輸入文件,我們需要安裝并運行該軟件。
首先,用戶應該安裝beagle程序文件(帶有.jar擴展名的)。來自這個網(wǎng)站:
https://faculty.washington.edu/browning/beagle/·beagle.html。
beagle程序文件使用java運行,要運行Beagle,請在命令提示符下輸入以下命令:
其中[GB]是內存池的上限,單位為千兆字節(jié)(例如Xmx50g),[arguments]是參數(shù)。
.jar文件這是對程序本身的調用。兩個主要參數(shù):gt:待填充個體的低密度基因型文件和ref:用于指導填充的參考面板基因型文件。impute=TRUE,告訴Beagle執(zhí)行填充,默認為TRUE。out參數(shù):指定輸出文件的前綴。

為了將實際基因型與填充的基因型進行比較,我們只需從填充的基因型中減去原始值,對于任何不同于0的值(如果填充值是正確的,則結果為0),我們將值指定為1。然后,我們獲得錯誤率,即每行錯誤的平均比例。
在本例子中(100個個體、4000個位點被填充),我們獲得了大約0.67的精確度。錯誤率包括正確但定相錯誤的雜合子 (例如,0|1而不是1|0)。忽略定相的準確性,在這種情況下,精度提高到約0.70。填充精度將取決于參考群體中的個體數(shù)量、要填充的標記數(shù)量、它們在基因組中的分布、它們的等位基因頻率以及樣本的整體LD結構。如前所述,在當前示例中,數(shù)據(jù)是用低LD生成的,因此填充精度相對較低。
2、僅使用實驗群體本身來填充缺失的基因型
在一些物種中,沒有高密度的參考基因型或序列可用于估計單倍型群體頻率。或者,可用的高密度基因分型樣本可能無法提供目標的特定育種群體中單倍型頻率的合理估計。在這些情況下,可以使用僅來自目標群體中的樣本的信息來進行填充。在某些情況下,基因型數(shù)據(jù)是從相對較低的覆蓋范圍測序中獲得的,這是由于某些下一代測序平臺的隨機性質,丟失了許多個體的基因型。因此,研究人員可能會面臨樣本中許多缺失基因型的情況,但沒有可靠的參考面板來填充。在這種情況下,缺失數(shù)據(jù)的結構與前面描述的高密度參考面板到低密度目標群體的情況不同。與低密度基因分型平臺中缺失一組標記不同,缺失數(shù)據(jù)將更接近隨機分布在SNPs和個體之間。在這種情況下,填充可以通過僅從當前可用數(shù)據(jù)中推斷單倍型頻率來進行。
這種方法的準確性很大程度上取決于樣本中缺失數(shù)據(jù)的比例和連鎖不平衡的程度,更廣泛的連鎖不平衡有助于填充的準確性。
它采用與前一節(jié)相同的初始數(shù)據(jù),但不是將數(shù)據(jù)分成參考面板和密度較低的目標集,而是將500個個體的整個樣本放在一個公共數(shù)據(jù)集內,并隨機引入20%的缺失數(shù)據(jù)。
前兩個標記的數(shù)據(jù)如下:

請注意,在第一個標記處丟失基因型的個體與在其他標記處丟失基因型的個體是不同的。每個SNP和每個個體都有一個獨特的丟失數(shù)據(jù)的模式。
在本例中,Beagle僅使用‘ gt ’文件執(zhí)行填充,而‘ ref ’填充文件選項未被使用。例如,執(zhí)行imputation的參數(shù)為:

由于我們執(zhí)行Beagle時沒有填充參考面板,所以Beagle僅使用填充基因型文件中提供的數(shù)據(jù)來估計單倍型頻率,我們填充的是相同的樣本。
在這個例子中,準確率非常低,只有大約43%。由于缺失的數(shù)據(jù)量大,LD水平低,單倍型頻率的估計非常困難。因此,為了提高填充的準確性,最好先質控掉缺失率高的snp,嘗試只填充具有合理數(shù)據(jù)量的位點。
參考資料:
1.群體遺傳學習筆記-基因型缺失數(shù)據(jù)的填充 http://www.itdecent.cn/p/dafd1e6e4a98
2.GWAS的基因型填充是怎么回事 http://www.360doc.com/content/18/0112/03/50153987_721216942.shtml
3.人類基因組的Phasing原理是什么?http://www.itdecent.cn/p/a30de54b83c3
4.《Genetic Data Analysis for Plant and Animal Breeding》Chapter 10:Imputing Missing Genotypes
作者:Fikret Isik ? James Holland ? Christian Maltecca
資料來源于網(wǎng)絡,如有侵權,請聯(lián)系,刪