(1)
是什么?含義是什么?
,全稱為fixation index,是一種用于衡量群體間分化程度的統(tǒng)計檢驗量(由Wright's F-statistics衍生而來)。 一般從SNP或microsatellites數(shù)據(jù)計算得到,且一般用在群體遺傳學分析中。
microsatellites,即微衛(wèi)星序列,是在一種串列重復序列 —— https://en.wikipedia.org/wiki/Microsatellite
但是現(xiàn)在WGS和RAD-Seq都已經(jīng)非常普遍了,使用的是否還多我也不了解,就略了~
(2)
如何計算?
示例:
計算原理
| AA | Aa | aa | |
|---|---|---|---|
| Pop1 | 125 | 250 | 125 |
| Pop2 | 50 | 30 | 20 |
| Pop3 | 100 | 500 | 400 |
1、統(tǒng)計每一個群體的等位基因數(shù)量
每一個Pop對應的基因型(genotype | genotyped individuals)數(shù)量為:
500
100
1000
每一個Pop的等位基因數(shù)量(the number of allele)為:
1000
200
2000
這邊是biallelic類型(A or a),因此等位基因數(shù)量為基因型數(shù)量的2倍。
2、計算每一個群體實際的等位基因頻率
Pop1中,
A allele實際的頻率為
,即0.5
a allele實際的頻率為 1- 0.5 = 0.5
Pop2中,
A allele實際的頻率為
,即0.65
a allele實際的頻率為 1- 0.65 = 0.35
Pop3中,
A allele的頻率為
,即0.35
a allele的頻率為 1- 0.35 = 0.65
3、計算每一個群體期望的基因型數(shù)量 & 差值
【標注】期望,即服從HD平衡理論,可以看看北京大學生物演化課程
Pop1中,
AA genotype期望的頻率為125
Aa genotype期望的頻率為250
aa genotype期望的頻率為125
因此,Pop1中對應的基因型數(shù)量均無偏差。
Pop2中,
AA genotype期望的頻率為42.25
Aa genotype期望的頻率為45.5
aa genotype期望的頻率為12.25
對應基因型數(shù)量的差值為+7.25, -15.5, +7.75。
Pop3中,
AA genotype期望的頻率為122.5
Aa genotype期望的頻率為455
aa genotype期望的頻率為422.5
對應基因型數(shù)量的差值為-22.5, +45, -22.5。
對計算結(jié)果的理解,Pop1與計算得到的期望數(shù)值一樣,服從HD平衡;Pop2實際純合基因型數(shù)目與期望純合基因型數(shù)目差值為正,表明存在inbreeding(近親繁殖)事件;Pop3實際純合基因型數(shù)目與期望純合基因型數(shù)目差值為負,表明存在outbred事件,即亞群之間的isolation(生殖隔離)被打破,導致亞群之間能夠產(chǎn)生后代。
4、統(tǒng)計每一個群體實際的雜合基因型占比
Pop1為0.5,Pop2為0.3,Pop3為0.5
【公式標注】
5、計算每一個群體期望的雜合基因型占比
Pop1為0.5,Pop2為0.455,Pop3為0.455
【公式標注】
6、計算A allele的頻率均值
,即0.4156
7、計算a allele的頻率均值
,即0.5844
8、計算the global heterozygosity indices
1.首先使用計算
,帶入數(shù)值,即0.4875
2.使用H_{exp}計算H_{S}
,帶入數(shù)值,即0.4691
3.計算global heterozygosity indicex的期望值
,即0.4845
9、計算the global F-statistics
1.計算,即-0.0393
2.計算,即0.0344
3.計算,即-0.0036
10、計算結(jié)果說明了什么?
群體間分化的程度達到了3.4%
示例:vcftools計算
【標注】只適用于二倍體。
vcftools --gzvcf input.vcf.gz --weir-fst-pop pop1_sample_id.txt --weir-fst-pop pop2_sample_id.txt --fst-window-size 10000 --fst-window-step 10000 --out pop1_pop2
# 參數(shù)說明
--gzvcf # 要求輸入為.gz格式的vcf文件
--weir-fst-pop # 輸入VCF文件中的sample,為一個文本文件,每一行一個sample
--fst-window-size # 設置計算Fst的窗口大小,根據(jù)自己的數(shù)據(jù)進行設置,看看別人文章里怎么用的
--fst-window-step # 設置計算Fst的步長長度,根據(jù)自己的數(shù)據(jù)進行設置
(4)
計算完了之后該干啥?
在對兩個群體之間進行不同區(qū)段的計算之后,需要判斷哪一些區(qū)段,是“真正”受到了選擇壓力,根據(jù)近期看的文章,得到可以選擇前5%的作
為一個閾值,對區(qū)域進行劃分,高于該閾值的被認為受到了選擇壓力的影響,進一步就可以得到是受到影響的是哪些SNP,最終即可得到受到影響的是哪些gene。
當然,對的計算結(jié)果可視化,當然也是非常重要的一部分,但是這篇文章主要想寫的是計算原理以及如何使用vcftools進行計算。
參考資料
[1] https://en.wikipedia.org/wiki/Fixation_index
[2] http://www.uwyo.edu/dbmcd/popecol/maylects/fst.html
[3] The genome of oil-Camellia and population genomics analysis provide insights into seed oil domestication
