群體遺傳學(xué)統(tǒng)計指標(biāo)——群體間分歧度檢驗(Fst)

基本概念

Fst:群體間遺傳分化指數(shù),是種群分化和遺傳距離的一種衡量方法,分化指數(shù)越大,差異越大。適用于亞群體間多樣性的比較。用于衡量種群分化程度,取值從0到1,為0則認(rèn)為兩個種群間是隨機交配的,基因型完全相似;為1則表示是完全隔離的,完全不相似。它往往從基因的多樣性來估計,比如SNP。是一種以哈溫平衡為前提的種群遺傳學(xué)統(tǒng)計方法。

在群體遺傳學(xué)中衡量群體間的遺傳分化的程度的指標(biāo)有許多種,較為常見的就是遺傳分化指數(shù)(Fst),fst是由F統(tǒng)計量演變而來,F(xiàn)統(tǒng)計量主要有三種(FIS,F(xiàn)IF,F(xiàn)ST)。Fst是針對一對等位基因,如果基因座上存在復(fù)等位基因,則需要用Gst衡量,基因差異分化系數(shù)(gene differentiation coefficient,Gst)。假定有s個地方群體,第k個地方群體相對大小為wk,k地方群體中第i個等位基因頻率為qk(i),雜合體頻率觀察值為hk,那么,整個群體中觀察到的雜合體頻率平均值HI,地方群體為理想群體的期望雜合體頻率平均值HS,整個群體為理想群體的期望雜合體頻率HT,分別為:

FIS,是HI相對于HS減少量的比值,即地方群體的平均近交系數(shù)。

FST,是HS相對于HT減少量的比值,即有親緣關(guān)系地方群體間的平均近交系數(shù)。

FIT,是HI相對于HT減少量的比值,即整個群體的平均近交系數(shù)。

簡單來說,兩個種群之間遺傳差異的基本測量就是統(tǒng)計量FST。在遺傳學(xué)中,F(xiàn)一詞通常代表“近親繁殖”,它傾向于減少群體中的遺傳變異。遺傳變異可以用雜合度來衡量,所以F一般表示群體中雜合性的減少。 FST是與它們所屬的總?cè)后w相比,亞群體中雜合性的減少量。

具體可以用下面的公式表示:

Fst= (Ht-Hs)/ Ht

Hs:亞群體中的平均雜合度

Ht:復(fù)合群體中的平均雜合度

Fst值的取值范圍是【0,1】,最大值為1表明兩個群體完全分化,最小值為0表明群體間無分化。

在實際的研究中Fst值為0--0.05時說明群體間遺傳分化很小,可以不做考慮;

為0.05--0.15時,表明群體間存在中等程度的遺傳分化;

為0.15--0.25時群體間存在較大的遺傳分化;

為0.25以上的時候群體間就存在很大的遺傳分化了。

不用看太懂的數(shù)學(xué)公式

理論上計算Fst的步驟

1)找出每個亞群的等位基因頻率。

2)查找復(fù)合群體的平均等位基因頻率

3)計算每個亞群的雜合度(2pq)

4)計算這些亞群雜合度的平均值,這是HS。

5)根據(jù)總體等位基因頻率計算雜合度,這是HT。

6)最后,計算FST =(HT-HS)/ HT

舉個例子:

基因SLC24A5是黑色素表達途徑的關(guān)鍵部分,其導(dǎo)致皮膚和毛發(fā)色素沉著。與歐洲較輕的皮膚色素密切相關(guān)的SNP是rs1426654。 SNP有兩個等位基因A和G,其中G與輕度皮膚相關(guān),在猶他州的歐裔美國人中,頻率為100%。美洲印第安人與美國印第安人混血兒的SNP在頻率上有所不同。墨西哥的樣本有38%A和62%G;在波多黎各,頻率分別為59%A和41%G,查爾斯頓的非裔美國人樣本中有19%A和81%G.這個例子中的FST是什么?

手動計算Fst步驟

怎么做?

看了眼花繚亂的理論知識,感覺云里霧里的應(yīng)該是正常的感受??偨Y(jié)一下,其實Fst分析就是看兩個群體之間分化程度的一種方法,F(xiàn)st值越大(越接近1)表明兩個群體間分化程度越高,親緣關(guān)系越遠;Fst值越小(越接近0)表明群體間分化程度越低,親緣關(guān)系越近。

一般我們用于分析的序列都很長,樣本量也很大,靠筆算可能比西天取經(jīng)還難。所以我們用強大的VCF分析工具——vcftools軟件來計算Fst值。

計算FST值有兩種情況:

SNP單點計算

vcftools --vcf YourDataName.vcf --weir-fst-pop population_1.txt --weir-fst-pop population_2.txt --out YourDataName_1_2

按照區(qū)域(窗口模式)計算

vcftools --vcf YourDataName.vcf?--weir-fst-pop population_1.txt --weir-fst-pop population_2.txt?--out YourDataName_1_2 --fst-window-size 500000 --fst-window-step 50000

其中--vcf 是輸入vcf格式文件,里面保存的是全部樣品的位點信息,具體細節(jié)大家自己查一查。

--weir-fst-population 這個命令是告訴計算機需要計算的群體ID名,該文件必須是txt格式,每個ID占一行,每次計算兩個群之間的關(guān)系,因此需要population_1.txt和population_2.txt兩個文件。

單點計算就是每個SNP位點單獨計算,窗口模式就是按照預(yù)先設(shè)定的步長,多個SNP位點計算一次,兩者的區(qū)別就是在后面加上窗口的大小和步長參數(shù):--fst-window-size 500000 --fst-window-step 50000 ,這里窗口設(shè)置為500kb,步長設(shè)置為50kb,窗口的設(shè)置沒有一個固定的標(biāo)準(zhǔn)和要求,都是按照自己的需要而定。

數(shù)據(jù)可視化

數(shù)據(jù)可視化換句話說就是清(hua)楚(shi)的展示你的結(jié)果。回頭看看,在Fst分析中,F(xiàn)st值越大(越接近1)表明兩個群體間分化程度越高,親緣關(guān)系越遠;Fst值越?。ㄔ浇咏?)表明群體間分化程度越低,親緣關(guān)系越近。那么我們所畫的圖,應(yīng)該要清晰的展示兩個群體Fst值的大小。因此,我們會選擇散點圖,它可以展示在整個基因組上,每個區(qū)域兩個群體Fst值的大小。當(dāng)然,如果你要比較多個群體之間的關(guān)系,也可以把整個基因組看作一個整體,用箱圖展示群體之間的Fst值大小關(guān)系。

廢話太多,先上個某文章的經(jīng)典圖片:

紅番茄和粉番茄的比較

文章對它的描述如下:A major genomic signature of modern processing tomatoes and three causative variants for pink fruit. FST values for all SNP sites between tomatoes for fresh consumption and modern processing tomatoes. Blue dots above the horizontal dashed line indicate highly divergent SNPs (top 1%; FST = 0.4464).

怎么畫?

我是用R畫的,當(dāng)然你也可以直接把數(shù)據(jù)導(dǎo)入EXCEL,用EXCEL畫也是非常漂亮的。

我的數(shù)據(jù)整理后長這樣,用到的是窗口模式返回結(jié)果的WEIGHTED_FST列數(shù)據(jù)(這里我重新命名為Sample):

整理后用于作圖的數(shù)據(jù)

分享一下我寫得一個R:(大家需要自己根據(jù)自己的數(shù)據(jù)就行調(diào)整,但是萬變不離其中,你們可以的?。?/p>

#讀入數(shù)據(jù);

dt1<- read.delim("Fst.txt",sep="\t", header = T, check.names = F)

# 加載ggplot2包;

library(ggplot2)

#建立顏色與數(shù)據(jù)的關(guān)系,這里讓點按照數(shù)據(jù)大小顯示不同的顏色;

p1<-ggplot(dt1, aes(No, Sample,color= factor(Chr)))+geom_point(color=dt1$Color)

#設(shè)置x軸范圍,避免點的溢出繪圖區(qū)(我的基因組全長9M,8條染色體,所以根據(jù)各染色體的大小設(shè)置了如下參數(shù))

p1<-p1+scale_x_continuous(limits = c(-1000, 9059582),breaks = c(440000, 1370000, 2410000, 3515000, 4610000,5800000,7095000,8399791),label = c("1","2","3","4","5","6","7","8"))

#設(shè)置y軸范圍

p1<-p1+scale_y_continuous(limits = c(-0.005,1.005),breaks = c(0,0.25,0.50,0.75,1),labels = c("0.00","0.25","0.50","0.75","1.00"))

#設(shè)置圖例、坐標(biāo)軸、圖表的標(biāo)題;

p1<-p1+labs(y="Fst",x="Chr")

#自定義圖表主題,對圖表做精細調(diào)整;

top.mar=0.2

right.mar=0.2

bottom.mar=0.2

left.mar=0.2

mytheme<-theme(panel.grid.major =element_blank(),

? ? ? ? ? ? ? panel.grid.minor = element_blank(),

? ? ? ? ? ? ? panel.background = element_blank(),

? ? ? ? ? ? ? panel.border = element_blank(),

? ? ? ? ? ? ? axis.line.y = element_line(color = "black"),

? ? ? ? ? ? ? axis.line.x = element_line(color = "white"),

? ? ? ? ? ? ? axis.title.y = element_text(size = rel(1.2)),

? ? ? ? ? ? ? axis.title.x = element_text(size = rel(1.2),color = "black"),

? ? ? ? ? ? ? axis.text.y = element_text(size=rel(1.2),color="black"),

? ? ? ? ? ? ? axis.text.x = element_text(size=rel(1.2),color="black"),

? ? ? ? ? ? ? plot.margin=unit(x=c(top.mar,right.mar,bottom.mar,left.mar),units="inches"))

p1<-p1+mytheme

參考:

Vcftools Manual

Genomic analyses provide insights into the history of tomato breeding

Fst的計算原理與實戰(zhàn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容