LD衰減距離指的是,當(dāng)平均LD系數(shù)衰減到一定大小(最大值的一半/0.5以下)的時(shí)候,對(duì)應(yīng)的物理距離。通常用LD衰減距離來描述LD衰減速度。LD衰減速度越快,即衰減距離越小,說明該群體遺傳多樣性越高;LD衰減速度越慢,通常馴化程度越高,選擇強(qiáng)度越大,導(dǎo)致遺傳多樣性下降。
LD系數(shù)衰退速度會(huì)受到不同因素的影響而有所不同。常見的因素包括:
1)物種類型LD存在的本質(zhì)是兩個(gè)位點(diǎn)的連鎖遺傳導(dǎo)致的相關(guān)性。但這種相關(guān)性理論上會(huì)隨著世代的增加、重組次數(shù)的增加而不斷下降。所以,那些繁殖力強(qiáng)、時(shí)代間隔短的物種(例如,昆蟲),其LD衰減的速度是非常快的。例如在家蠶和野蠶群體中,LD系數(shù)下降到最大值的1/2僅僅需要46bp和7bp的距離
2)群體類型相同物種的不同群體,由于其遺傳背景不同,LD衰減速度也存在很大的差異。馴化選擇,會(huì)導(dǎo)致群體遺傳多樣性下降,位點(diǎn)間的相關(guān)性(連鎖程度)加強(qiáng)。所以,通常馴化程度越高,選擇強(qiáng)度越大的群體,LD衰減速度是最慢的。例如,栽培稻比野生稻通常更大的LD衰減距離。類似的,自然選擇、遺傳漂變導(dǎo)致的群體遺傳多樣性下降,也會(huì)減慢LD衰減的速度。
3)在染色體的位置染色體不同區(qū)域的LD衰減距離而是不同的。通常著絲粒區(qū)更難重組,所以LD衰減更慢。而基因組上那些受選擇的區(qū)域相比普通的區(qū)域,LD衰減速度也是更慢的。
下載軟件:PopLDdecay
git clone https://github.com/BGI-shenzhen/PopLDdecay.git
chmod 755 configure
./configure
計(jì)算每個(gè)亞群的LD
~/PopLDdecay/bin/PopLDdecay -InVCF Filter.snp.vcf -SubPop 1-population.txt -OutStat p1.stat -MaxDist 1000
~/PopLDdecay/bin/PopLDdecay -InVCF Filter.snp.vcf -SubPop 2-population.txt -OutStat p2.stat -MaxDist 1000
~/PopLDdecay/bin/PopLDdecay -InVCF Filter.snp.vcf -SubPop 3-population.txt -OutStat p3.stat -MaxDist 1000
~/PopLDdecay/bin/PopLDdecay -InVCF Filter.snp.vcf -OutStat all.stat -MaxDist 2000
#-SubPop 群體ID信息,一行一個(gè)ID
#-OutStat 輸出文件
#-MaxDist 兩個(gè)SNP間的最大距離,默認(rèn)是300kb,最大不超過5mb
創(chuàng)建draw.list
#上一步生成的文件的絕對(duì)路徑 以及去掉后綴的文件名
/home/ug0797/data/test-fst/test2/p1.stat.gz p1
/home/ug0797/data/test-fst/test2/p2.stat.gz p2
/home/ug0797/data/test-fst/test2/p3.stat.gz p3
畫圖
~/PopLDdecay/bin/Plot_MultiPop.pl -inList draw.list -output draw -bin1 5000 -bin2 50000
# -bin1 -bin2設(shè)置的大一點(diǎn),曲線會(huì)更平滑!

發(fā)現(xiàn)不止1000kb
用ggplot畫
用poplddecay畫圖時(shí)會(huì)返回有以下內(nèi)容的文件,前兩列是畫圖所需的的數(shù)據(jù)

其中列名#Dist、Mean_r^2在R語言中無法識(shí)別,所以首先要改列名
修改列名(draw_p*就是poplddecay畫圖后生成的文件)
colnames(draw_p1)[1]<-'Dist'
colnames(draw_p1)[2]<-'Mean_r.2'
colnames(draw_p2)[1]<-'Dist'
colnames(draw_p2)[2]<-'Mean_r.2'
colnames(draw_p3)[1]<-'Dist'
colnames(draw_p3)[2]<-'Mean_r.2'
刪除最后一行數(shù)據(jù)(只畫到1000kb)
draw_p1 <- draw_p1[-22,]
draw_p2 <- draw_p2[-22,]
draw_p3 <- draw_p3[-22,]
添加分組信息
Group=("G1")
data1=data.frame(draw_p1,Group)
View(data1)
Group=("G2")
data2=data.frame(draw_p2,Group)
View(data2)
Group=("G3")
data3=data.frame(draw_p3,Group)
將三組數(shù)據(jù)合并
library(dplyr)
total_data<-dplyr::bind_rows(data1,data2,data3)
ggplot畫圖
p <- ggplot(data=total_data,aes(x=Dist/1000,y=Mean_r.2,colour=Group))+geom_line()+labs(y=expression(r^{2}),title="LD decay")+
xlab("Distance")+theme_bw()+xlim(0,1000)+ylim(0,0.6)#xlim,ylim設(shè)置軸范圍
p<- p+theme(plot.title = element_text(hjust = 0.5))#使主標(biāo)題居中
p

基礎(chǔ)知識(shí)參考文章:
https://links.jianshu.com/go?to=http%3A%2F%2Fwww.omicshare.com%2Fforum%2Fthread-878-1-1.html