在群體遺傳學(xué)研究中,LD連鎖不平衡分析是非常常見(jiàn)的內(nèi)容,同時(shí)也是關(guān)聯(lián)分析的基礎(chǔ)。在很多的遺傳進(jìn)化GWAS的文章中都會(huì)出現(xiàn)LD衰減或者block單倍型塊的圖。那么什么是連鎖不平衡呢?
連鎖不平衡(LD)概念
只要兩個(gè)基因不是完全獨(dú)立遺傳,就會(huì)表現(xiàn)出某種程度的連鎖,這種情況就叫連鎖不平衡。
由于HLA不同基因座某些基因經(jīng)常連鎖在一起遺傳,而連鎖的基因并非完全的隨機(jī)的組成單體型,有些基因總是較多的在一起出現(xiàn),致使某些單體型在群體中呈現(xiàn)較高的頻率,從而引起連鎖不平衡。
假如位于同一染色體的兩個(gè)等位基因(AB)同時(shí)存在的概率大于人群中因隨機(jī)分布而同時(shí)出現(xiàn)的概率,稱這兩點(diǎn)處于LD狀態(tài)。
LD的度量
LD的基本單位是D,但是度量觀察到的單倍型頻率與平衡狀態(tài)下期望頻率的偏差。雖然D能夠很好的表達(dá)LD的基本含義,但是由于其嚴(yán)格依賴于等位基因頻率(allele frequency),故不適合應(yīng)用于表述實(shí)際的LD強(qiáng)度。所以一般在LD的度量中最常見(jiàn)的是D'和r2。二者各有各的特點(diǎn)和用途,但都是基于D的。
當(dāng)D'=0,r2=0時(shí),處于完全連鎖平衡狀態(tài)
當(dāng)D'=1,r2=1時(shí),處于完全連鎖不平衡狀態(tài)。
其中,從0—1之間的度量越高,LD越高,如果兩個(gè)位點(diǎn)連鎖,連鎖程度也越高。
計(jì)算LD的軟件和使用方法
①利用PLINK計(jì)算r2值
plink --file test --r2? ?###--r2會(huì)根據(jù)R2值對(duì)結(jié)果進(jìn)行過(guò)濾。在實(shí)際分析中,SNP位點(diǎn)個(gè)數(shù)是非常多的,如果不進(jìn)行過(guò)濾,結(jié)果文件會(huì)非常的大。所以要對(duì)r2進(jìn)行過(guò)濾,設(shè)置一些過(guò)濾參數(shù)。
plink --vcf vcf_file --allow-no-sex? --r2?--ld-window 99999 --ld-window-kb 10 --ld-window-r2 0.2 --out out_file
--vcf 指定輸入的文件為vcf格式,如果是bed格式文件,使用--bfile接文件前綴,如果數(shù)據(jù)是ped 、map格式,使用 --map接.map文件,--ped接.ped文件
--allow-no-sex 表示允許沒(méi)有性別信息
--r2表示計(jì)算r2值
--ld-window 表示計(jì)算LD的區(qū)間,表示距離小于這個(gè)值的標(biāo)記對(duì)都要進(jìn)行LD的計(jì)算。
--ld-window-kb 默認(rèn)為1Mb,表示只對(duì)距離在1Mb之內(nèi)的SNP位點(diǎn)進(jìn)行分析。
--ld-window-r2 0.2 這個(gè)參數(shù)只能和 --r2參數(shù)搭配使用,默認(rèn)值為0.2對(duì)輸出結(jié)果進(jìn)行過(guò)濾,只輸出r2大于該參數(shù)的r2值
②利用Haploview做LD分析
haploview軟件可以從網(wǎng)上自行下載,有windows版本也有l(wèi)inux版本,在此我只演示windows版本的操作流程。(注意,haploview是基于Java的工作環(huán)境,如果電腦沒(méi)有java的話,需要提前安裝)
首先下載安裝好haploview之后運(yùn)行。如下圖

我們可以看到左方有六種輸入文件的格式。每種格式都有每種格式的要求,比如第一種格式Linkage Format 這個(gè)輸入,需要兩個(gè)文件一個(gè)是ped格式文件,這個(gè)ped格式就和PLINK輸入的格式一樣,唯一不同的是plink的輸入文件中基因型用AGCT表示,而這里基因型用1234來(lái)表示。另一個(gè)文件是info文件,此文件有兩列,第一列是snp的名字(例如rs10721907)第二列是該snp在染色體上的物理位置。
準(zhǔn)備好文件之后輸入進(jìn)去,我們還可以看到下方的參數(shù),可以根據(jù)自己的需要進(jìn)行調(diào)整。

調(diào)整好參數(shù)之后點(diǎn)擊ok就可以了,就會(huì)出現(xiàn)以下界面

然后可以點(diǎn)擊左上角的LD plot,就可以看到單倍型plot。如下圖。

還可以點(diǎn)擊Analysis,進(jìn)行算法的調(diào)整

上述的單倍型圖就是基于Confidence intervals得到的圖片,我們也可以選擇其他三種算法 。這個(gè)可以根據(jù)自己的需要選擇合適的算法。
這樣基本上用Haploview計(jì)算LD和畫(huà)單倍型(block)就完成了。
上述的LD內(nèi)容,均為我自己查閱文獻(xiàn)資料或上網(wǎng)查閱的自學(xué)筆記,分享出來(lái)是為了幫助有需要的人,有可能會(huì)有不完美的地方,請(qǐng)懂行的大神們指出,我會(huì)虛心學(xué)習(xí)和修改。