1. 基因流(gene flow)/雜交(hybridization)/漸滲(introgressive)
基因流,雜交和漸滲通常一起討論,有些情況下甚至三者在說同一件事。從定義判斷,基因流通常發(fā)生在種內(nèi)群體間,雜交則是發(fā)生在種間,漸滲是指雜交加回交產(chǎn)生的一種現(xiàn)象。
可以這樣理解,雜交和漸滲都是基因流的具體結(jié)果。
基因流(gene flow)
基因流是指遺傳物質(zhì)在不同群體間的流動。
造成基因流動的原因可能是個體或配子(例如花粉)在群體間的遷徙,或者不同群體間個體的交配等。
基因流可能發(fā)生在同一物種的不同群體間,也可能發(fā)生在不同物種間。
雜交(hybridization)
雜交指不同物種間通過有性生殖實現(xiàn)配子融合形成下一代的過程。
漸滲(introgressive)
漸滲是指通過種間雜種與親本物種之一的反復(fù)回交,將遺傳物質(zhì)從一個物種轉(zhuǎn)移到另一個物種的基因庫中,是一個長期的過程。
2. 推斷基因流/雜交
通常在物種內(nèi)檢測不同地區(qū)的群體間是否存在基因流,也可以在物種間檢測基因流來判斷雜交/漸滲,物種間的基因流會導(dǎo)致系統(tǒng)發(fā)育樹的不穩(wěn)定或核質(zhì)沖突等問題,所以可以推斷系統(tǒng)發(fā)育網(wǎng)絡(luò)來檢測所有物種對的基因流。
通過計算Patterson’s D值(ABBA-BABA值)和相關(guān)統(tǒng)計量來判斷基因流:Dsuite(2020),ADMIXTOOLS(2012),HyDe(2018),ANGSD(2011,2018),POPGENOME(2014,2019),COMP-D(2020)。
推斷系統(tǒng)發(fā)育網(wǎng)絡(luò):PhyloNetworks(2017),PhyloNet(2008,2018),TreeMix(2012),BEAST2(2017)。
基于最大似然法:3s(2017)
基于MCMC算法的:IM, IMA
有幾個軟件單獨寫了博客:
Dsuite簡介
Dsuite是通過計算Patterson’s D統(tǒng)計量(即ABBA統(tǒng)計量)和f4等統(tǒng)計量來評估種群間或近緣種間基因流的基于C語言的軟件。
Dsuite 原理
D值(即ABBA統(tǒng)計量)和f4-ratio統(tǒng)計可以表示為適用于四個分類群的雙等位基因SNP:P1,P2,P3,O,拓?fù)涫?(((P1,P2),P3),O)。
其中外類群O攜帶祖先等位基因A,衍生等位基因用B表示。BBAA,ABBA,BABA分別代表四個分類群攜帶等位的三種模式。
在沒有基因流的零假設(shè)下,由于具有相同頻率的不完全譜系分類,預(yù)計P3與P1或P2共享衍生等位基因B的兩種模式ABBA和BABA的頻率相等,如果ABBA和BABA的頻率有顯著差異則代表在P3和P1或P2間存在基因漸滲。
D=(nABBA-nBABA)/(nABBA+nBABA);在外群對于祖先等位基因A是固定的(外群中B的頻率為0)假設(shè)下,D統(tǒng)計量是等位基因模式計數(shù)的歸一化差異。
如果外群中衍生等位基因B不為0,則Dsuite的D值是Patterson’s D,適用于無根的四分類群樹。
Dsuite輸入輸出
輸入:基因組snp的vcf格式文件,居群樹文件(可選optional)
輸出:D值統(tǒng)計,f4-ratio統(tǒng)計,f-branch統(tǒng)計,f-branch樹矩陣熱圖
Dsuite優(yōu)勢和不足
Dsuite的優(yōu)勢是運行非常快(時間以小時計算)
不足是Dsuite分析結(jié)果不包含基因流的方向
Dsuite適用范圍
Dsuite適用于基因組學(xué)大數(shù)據(jù)和多樣本(超過十個)數(shù)據(jù)
適用于居群間或物種間的基因流推測
即使每個群體只有一個個體也可以推測基因流
還可以計算pool-seq數(shù)據(jù)的基因流
相較其他計算D值軟件,Dsuite還同時可以計算f4-ratio和f-branch,以及滑窗統(tǒng)計f相關(guān)值。
PhyloNetworks簡介
PhyloNetworks是通過基因樹或多位點序列(SNaQ)的最大偽似然進行推斷系統(tǒng)發(fā)育網(wǎng)絡(luò)的一個Julia包。
PhyloNetworks原理
原理:通過SNaQ來實現(xiàn)網(wǎng)絡(luò)推斷,SNaQ通過估計4分類群子集的最大偽似然來加速運算,估計的網(wǎng)絡(luò)不受根的影響。
PhyloNetworks輸入輸出
輸入:newick格式基因樹(多個基因樹組成的文件)
輸出:系統(tǒng)發(fā)育網(wǎng)絡(luò),基因流方向和雜交節(jié)點貢獻比例
PhyloNetworks優(yōu)勢和不足
推斷系統(tǒng)發(fā)育網(wǎng)絡(luò),包括基因流的方向和強度。
相較于其他推斷系統(tǒng)發(fā)育網(wǎng)絡(luò)的軟件,PhyloNetworks集成了上游分析,網(wǎng)絡(luò)估計,引導(dǎo)分析,下游特征進化分析,繪圖等功能。
不足是運行多樣本(超過十個個體)和數(shù)據(jù)量大(超過1000個)會非常耗時(常常以星期/月計時)。
PhyloNetworks適用范圍
PhyloNetworks適用于基因樹數(shù)據(jù)
適用于居群間或物種間的基因流推測
適用于推斷基因流方向和強度
TreeMix簡介
TreeMix利用等位基因頻率來推斷群體間分化和雜合(基因流動或基因滲入)
TreeMix輸入輸出
輸入:基因組snp的vcf文件,和居群系統(tǒng)樹(可選optional)
輸出:最佳雜交次數(shù)和系統(tǒng)發(fā)育網(wǎng)絡(luò)(包含雜交方向和強度)
TreeMix優(yōu)勢和不足
TreeMix和PhyloNetworks一樣,也是推斷系統(tǒng)發(fā)育網(wǎng)絡(luò)。
我自己用時,有些PhyloNetworks報錯無法定根和邊緣錯誤的情況TreeMix可以找到最佳雜交次數(shù)。
不足是比PhyloNetworks更耗時,超級耗時。
3s簡介
3s利用似然率來推斷兩個物種/群體間的基因流方向和強度
3s輸入
輸入:基因組或其他測序序列phylip文件
輸出:基因流方向和強度
3s優(yōu)勢和不足
隨著數(shù)據(jù)量線性增加運算時間,運算快,適合基因組數(shù)據(jù)。
一次只能檢測三個物種/群體,無法建立系統(tǒng)發(fā)育網(wǎng)。
wiki: gene flow:https://en.wikipedia.org/wiki/Gene_flow
wiki: introgression:https://en.wikipedia.org/wiki/Introgression
Dsuite paper:https://onlinelibrary.wiley.com/doi/10.1111/1755-0998.13265
PhyloNetworks paper:https://academic.oup.com/mbe/article/34/12/3292/4103410
TreeMix paper:https://www.nature.com/articles/npre.2012.6956.1