LD衰減圖

LD衰減距離指的是,當(dāng)平均LD系數(shù)衰減到一定大小(最大值的一半/0.5以下)的時(shí)候,對(duì)應(yīng)的物理距離。通常用LD衰減距離來描述LD衰減速度。LD衰減速度越快,即衰減距離越小,說明該群體遺傳多樣性越高;LD衰減速度越慢,通常馴化程度越高,選擇強(qiáng)度越大,導(dǎo)致遺傳多樣性下降。
LD系數(shù)衰退速度會(huì)受到不同因素的影響而有所不同。常見的因素包括:

1)物種類型LD存在的本質(zhì)是兩個(gè)位點(diǎn)的連鎖遺傳導(dǎo)致的相關(guān)性。但這種相關(guān)性理論上會(huì)隨著世代的增加、重組次數(shù)的增加而不斷下降。所以,那些繁殖力強(qiáng)、時(shí)代間隔短的物種(例如,昆蟲),其LD衰減的速度是非常快的。例如在家蠶和野蠶群體中,LD系數(shù)下降到最大值的1/2僅僅需要46bp和7bp的距離

2)群體類型相同物種的不同群體,由于其遺傳背景不同,LD衰減速度也存在很大的差異。馴化選擇,會(huì)導(dǎo)致群體遺傳多樣性下降,位點(diǎn)間的相關(guān)性(連鎖程度)加強(qiáng)。所以,通常馴化程度越高,選擇強(qiáng)度越大的群體,LD衰減速度是最慢的。例如,栽培稻比野生稻通常更大的LD衰減距離。類似的,自然選擇、遺傳漂變導(dǎo)致的群體遺傳多樣性下降,也會(huì)減慢LD衰減的速度。

3)在染色體的位置染色體不同區(qū)域的LD衰減距離而是不同的。通常著絲粒區(qū)更難重組,所以LD衰減更慢。而基因組上那些受選擇的區(qū)域相比普通的區(qū)域,LD衰減速度也是更慢的。

下載軟件:PopLDdecay

git clone https://github.com/BGI-shenzhen/PopLDdecay.git
chmod 755 configure
./configure

計(jì)算每個(gè)亞群的LD

~/PopLDdecay/bin/PopLDdecay -InVCF Filter.snp.vcf -SubPop 1-population.txt -OutStat p1.stat -MaxDist 1000
~/PopLDdecay/bin/PopLDdecay -InVCF Filter.snp.vcf -SubPop 2-population.txt -OutStat p2.stat -MaxDist 1000
~/PopLDdecay/bin/PopLDdecay -InVCF Filter.snp.vcf -SubPop 3-population.txt -OutStat p3.stat -MaxDist 1000
~/PopLDdecay/bin/PopLDdecay -InVCF Filter.snp.vcf -OutStat all.stat -MaxDist 2000
#-SubPop 群體ID信息,一行一個(gè)ID
#-OutStat 輸出文件
#-MaxDist 兩個(gè)SNP間的最大距離,默認(rèn)是300kb,最大不超過5mb

創(chuàng)建draw.list

#上一步生成的文件的絕對(duì)路徑 以及去掉后綴的文件名
/home/ug0797/data/test-fst/test2/p1.stat.gz p1
/home/ug0797/data/test-fst/test2/p2.stat.gz p2
/home/ug0797/data/test-fst/test2/p3.stat.gz p3

畫圖

~/PopLDdecay/bin/Plot_MultiPop.pl -inList draw.list -output draw -bin1 5000 -bin2 50000
# -bin1 -bin2設(shè)置的大一點(diǎn),曲線會(huì)更平滑!
image.png

發(fā)現(xiàn)不止1000kb

用ggplot畫

用poplddecay畫圖時(shí)會(huì)返回有以下內(nèi)容的文件,前兩列是畫圖所需的的數(shù)據(jù)


image.png

其中列名#Dist、Mean_r^2在R語言中無法識(shí)別,所以首先要改列名

修改列名(draw_p*就是poplddecay畫圖后生成的文件)

colnames(draw_p1)[1]<-'Dist'
colnames(draw_p1)[2]<-'Mean_r.2'
colnames(draw_p2)[1]<-'Dist'
colnames(draw_p2)[2]<-'Mean_r.2'
colnames(draw_p3)[1]<-'Dist'
colnames(draw_p3)[2]<-'Mean_r.2'

刪除最后一行數(shù)據(jù)(只畫到1000kb)

draw_p1 <- draw_p1[-22,]
draw_p2 <- draw_p2[-22,]
draw_p3 <- draw_p3[-22,]

添加分組信息

Group=("G1")
data1=data.frame(draw_p1,Group)
View(data1)
Group=("G2")
data2=data.frame(draw_p2,Group)
View(data2)
Group=("G3")
data3=data.frame(draw_p3,Group)

將三組數(shù)據(jù)合并

library(dplyr)
total_data<-dplyr::bind_rows(data1,data2,data3)

ggplot畫圖

p <- ggplot(data=total_data,aes(x=Dist/1000,y=Mean_r.2,colour=Group))+geom_line()+labs(y=expression(r^{2}),title="LD decay")+
xlab("Distance")+theme_bw()+xlim(0,1000)+ylim(0,0.6)#xlim,ylim設(shè)置軸范圍
p<- p+theme(plot.title = element_text(hjust = 0.5))#使主標(biāo)題居中
p

image.png

基礎(chǔ)知識(shí)參考文章:
https://links.jianshu.com/go?to=http%3A%2F%2Fwww.omicshare.com%2Fforum%2Fthread-878-1-1.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 在群體遺傳學(xué)研究中,LD連鎖不平衡分析是最常見的分析內(nèi)容,也是關(guān)聯(lián)分析的基礎(chǔ)。如何正確理解并且進(jìn)行相關(guān)的LD連鎖不...
    lakeseafly閱讀 34,889評(píng)論 14 92
  • 之前使用popLDdeacy這個(gè)軟件自動(dòng)生成的圖片不是特別好看,重新繪制了一下,記錄一下。 在使用LDdecay計(jì)...
    123678閱讀 7,171評(píng)論 2 12
  • ## 1.設(shè)置當(dāng)前工作目錄 setwd("./ComplexHeatmap") ## 2.安裝和導(dǎo)入R包:Comp...
    知無牙閱讀 2,364評(píng)論 0 1
  • 可以使用haploview進(jìn)行計(jì)算LD衰減值和畫單倍型塊圖塊,這個(gè)軟件可以輸入多種不同的文件格式:Linkage ...
    靈動(dòng)的小豬閱讀 9,560評(píng)論 3 20
  • R語言與數(shù)據(jù)挖掘:公式;數(shù)據(jù);方法 R語言特征 對(duì)大小寫敏感 通常,數(shù)字,字母,. 和 _都是允許的(在一些國家還...
    __一蓑煙雨__閱讀 1,832評(píng)論 0 5

友情鏈接更多精彩內(nèi)容