【群體遺傳】Fst(群體間分化指數(shù))

(1)F_{ST}是什么?含義是什么?

F_{ST},全稱為fixation index,是一種用于衡量群體間分化程度的統(tǒng)計檢驗量(由Wright's F-statistics衍生而來)。 一般從SNP或microsatellites數(shù)據(jù)計算得到,且一般用在群體遺傳學分析中。

microsatellites,即微衛(wèi)星序列,是在一種串列重復序列 —— https://en.wikipedia.org/wiki/Microsatellite
但是現(xiàn)在WGS和RAD-Seq都已經(jīng)非常普遍了,使用的是否還多我也不了解,就略了~

(2)F_{ST}如何計算?

示例:F_{ST}計算原理

AA Aa aa
Pop1 125 250 125
Pop2 50 30 20
Pop3 100 500 400
1、統(tǒng)計每一個群體的等位基因數(shù)量

每一個Pop對應的基因型(genotype | genotyped individuals)數(shù)量為:

  • 500

  • 100

  • 1000

每一個Pop的等位基因數(shù)量(the number of allele)為:

  • 1000

  • 200

  • 2000

這邊是biallelic類型(A or a),因此等位基因數(shù)量為基因型數(shù)量的2倍。

2、計算每一個群體實際的等位基因頻率

Pop1中,

  • A allele實際的頻率為\frac{125*2 + 250*1}{1000},即0.5

  • a allele實際的頻率為 1- 0.5 = 0.5

Pop2中,

  • A allele實際的頻率為\frac{2*50 + 30*1}{200},即0.65

  • a allele實際的頻率為 1- 0.65 = 0.35

Pop3中,

  • A allele的頻率為\frac{100*2 + 500}{2000},即0.35

  • a allele的頻率為 1- 0.35 = 0.65

3、計算每一個群體期望的基因型數(shù)量 & 差值

【標注】期望,即服從HD平衡理論,可以看看北京大學生物演化課程

Pop1中,

  • AA genotype期望的頻率為125

  • Aa genotype期望的頻率為250

  • aa genotype期望的頻率為125

因此,Pop1中對應的基因型數(shù)量均無偏差。

Pop2中,

  • AA genotype期望的頻率為42.25

  • Aa genotype期望的頻率為45.5

  • aa genotype期望的頻率為12.25

對應基因型數(shù)量的差值為+7.25, -15.5, +7.75。

Pop3中,

  • AA genotype期望的頻率為122.5

  • Aa genotype期望的頻率為455

  • aa genotype期望的頻率為422.5

對應基因型數(shù)量的差值為-22.5, +45, -22.5。

對計算結(jié)果的理解,Pop1與計算得到的期望數(shù)值一樣,服從HD平衡;Pop2實際純合基因型數(shù)目與期望純合基因型數(shù)目差值為正,表明存在inbreeding(近親繁殖)事件;Pop3實際純合基因型數(shù)目與期望純合基因型數(shù)目差值為負,表明存在outbred事件,即亞群之間的isolation(生殖隔離)被打破,導致亞群之間能夠產(chǎn)生后代。

4、統(tǒng)計每一個群體實際的雜合基因型占比

Pop1為0.5,Pop2為0.3,Pop3為0.5

【公式標注】H_{obs} = \frac{雜合基因型數(shù)目}{總個體數(shù)}

5、計算每一個群體期望的雜合基因型占比

Pop1為0.5,Pop2為0.455,Pop3為0.455

【公式標注】H_{exp} = 1-\sum(p^2 + q^2)

6、計算A allele的頻率均值

\overline{p} = \frac{2*125 + 250 + 2*50 + 30 + 2*100 + 500}{1000 + 200 + 2000},即0.4156

7、計算a allele的頻率均值

1 - \overline{p} = \overline{q},即0.5844

8、計算the global heterozygosity indices

1.首先使用H_{obs}計算H_{I}

H_{I}=\frac{H_{obs1}*N_{1} + H_{obs2}*N2 + H_{obs3}*N3}{N_{total}},帶入數(shù)值,即0.4875

2.使用H_{exp}計算H_{S}

H_{S} = \frac{H_{exp1}*N_{1} + H_{exp2}*N2 + H_{exp3}*N3}{N_{total}},帶入數(shù)值,即0.4691

3.計算global heterozygosity indicex的期望值

H_{T} = 1 - \sum(\overline{p}^2 + \overline{q}^2) = 1 - (0.4146^2 + 0.5844^2),即0.4845

9、計算the global F-statistics

1.計算F_{IS} = \frac{H_{S} - H_{I}}{H_{S}},即-0.0393
2.計算F_{ST} = \frac{H_{T} - H_{S}}{H_{T}},即0.0344
3.計算F_{IT} = \frac{H_{T} - H_{I}}{H_{T}},即-0.0036

10、計算結(jié)果說明了什么?

群體間分化的程度達到了3.4%

示例:vcftools計算F_{ST}

【標注】只適用于二倍體。

vcftools --gzvcf input.vcf.gz --weir-fst-pop pop1_sample_id.txt --weir-fst-pop pop2_sample_id.txt --fst-window-size 10000 --fst-window-step 10000 --out pop1_pop2

# 參數(shù)說明
--gzvcf            # 要求輸入為.gz格式的vcf文件
--weir-fst-pop     # 輸入VCF文件中的sample,為一個文本文件,每一行一個sample
--fst-window-size  # 設置計算Fst的窗口大小,根據(jù)自己的數(shù)據(jù)進行設置,看看別人文章里怎么用的
--fst-window-step  # 設置計算Fst的步長長度,根據(jù)自己的數(shù)據(jù)進行設置

(4)F_{ST}計算完了之后該干啥?

在對兩個群體之間進行不同區(qū)段的F_{ST}計算之后,需要判斷哪一些區(qū)段,是“真正”受到了選擇壓力,根據(jù)近期看的文章,得到可以選擇前5%的作F_{ST}為一個閾值,對區(qū)域進行劃分,高于該閾值的被認為受到了選擇壓力的影響,進一步就可以得到是受到影響的是哪些SNP,最終即可得到受到影響的是哪些gene。

當然,對F_{ST}的計算結(jié)果可視化,當然也是非常重要的一部分,但是這篇文章主要想寫的是計算原理以及如何使用vcftools進行計算。

參考資料

[1] https://en.wikipedia.org/wiki/Fixation_index
[2] http://www.uwyo.edu/dbmcd/popecol/maylects/fst.html
[3] The genome of oil-Camellia and population genomics analysis provide insights into seed oil domestication

image.png

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容