2023-06-15基因流及其推斷

1. 基因流(gene flow)/雜交(hybridization)/漸滲(introgressive)

基因流,雜交和漸滲通常一起討論,有些情況下甚至三者在說同一件事。從定義判斷,基因流通常發(fā)生在種內(nèi)群體間,雜交則是發(fā)生在種間,漸滲是指雜交加回交產(chǎn)生的一種現(xiàn)象。

可以這樣理解,雜交和漸滲都是基因流的具體結(jié)果。

基因流(gene flow)

基因流是指遺傳物質(zhì)在不同群體間的流動。

造成基因流動的原因可能是個體或配子(例如花粉)在群體間的遷徙,或者不同群體間個體的交配等。

基因流可能發(fā)生在同一物種的不同群體間,也可能發(fā)生在不同物種間。

雜交(hybridization)

雜交指不同物種間通過有性生殖實現(xiàn)配子融合形成下一代的過程。

漸滲(introgressive)

漸滲是指通過種間雜種與親本物種之一的反復(fù)回交,將遺傳物質(zhì)從一個物種轉(zhuǎn)移到另一個物種的基因庫中,是一個長期的過程。

2. 推斷基因流/雜交

通常在物種內(nèi)檢測不同地區(qū)的群體間是否存在基因流,也可以在物種間檢測基因流來判斷雜交/漸滲,物種間的基因流會導(dǎo)致系統(tǒng)發(fā)育樹的不穩(wěn)定或核質(zhì)沖突等問題,所以可以推斷系統(tǒng)發(fā)育網(wǎng)絡(luò)來檢測所有物種對的基因流。

2.1. 推斷基因流的軟件

通過計算Patterson’s D值(ABBA-BABA值)和相關(guān)統(tǒng)計量來判斷基因流:Dsuite(2020),ADMIXTOOLS(2012),HyDe(2018),ANGSD(2011,2018),POPGENOME(2014,2019),COMP-D(2020)。

推斷系統(tǒng)發(fā)育網(wǎng)絡(luò):PhyloNetworks(2017),PhyloNet(2008,2018),TreeMix(2012),BEAST2(2017)。

基于最大似然法:3s(2017)

基于MCMC算法的:IM, IMA

有幾個軟件單獨寫了博客:

2.1.1. Dsuite【推薦】

Dsuite blog

Dsuite簡介

Dsuite是通過計算Patterson’s D統(tǒng)計量(即ABBA統(tǒng)計量)和f4等統(tǒng)計量來評估種群間或近緣種間基因流的基于C語言的軟件。

Dsuite 原理

D值(即ABBA統(tǒng)計量)和f4-ratio統(tǒng)計可以表示為適用于四個分類群的雙等位基因SNP:P1,P2,P3,O,拓?fù)涫?(((P1,P2),P3),O)。

其中外類群O攜帶祖先等位基因A,衍生等位基因用B表示。BBAA,ABBA,BABA分別代表四個分類群攜帶等位的三種模式。

在沒有基因流的零假設(shè)下,由于具有相同頻率的不完全譜系分類,預(yù)計P3與P1或P2共享衍生等位基因B的兩種模式ABBA和BABA的頻率相等,如果ABBA和BABA的頻率有顯著差異則代表在P3和P1或P2間存在基因漸滲。

D=(nABBA-nBABA)/(nABBA+nBABA);在外群對于祖先等位基因A是固定的(外群中B的頻率為0)假設(shè)下,D統(tǒng)計量是等位基因模式計數(shù)的歸一化差異。

如果外群中衍生等位基因B不為0,則Dsuite的D值是Patterson’s D,適用于無根的四分類群樹。

Dsuite輸入輸出

輸入:基因組snp的vcf格式文件,居群樹文件(可選optional)

輸出:D值統(tǒng)計,f4-ratio統(tǒng)計,f-branch統(tǒng)計,f-branch樹矩陣熱圖

Dsuite優(yōu)勢和不足

Dsuite的優(yōu)勢是運行非常快(時間以小時計算)

不足是Dsuite分析結(jié)果不包含基因流的方向

Dsuite適用范圍

Dsuite適用于基因組學(xué)大數(shù)據(jù)和多樣本(超過十個)數(shù)據(jù)

適用于居群間或物種間的基因流推測

即使每個群體只有一個個體也可以推測基因流

還可以計算pool-seq數(shù)據(jù)的基因流

相較其他計算D值軟件,Dsuite還同時可以計算f4-ratio和f-branch,以及滑窗統(tǒng)計f相關(guān)值。

2.1.2. PhyloNetworks

PhyloNetworks blog

PhyloNetworks簡介

PhyloNetworks是通過基因樹或多位點序列(SNaQ)的最大偽似然進行推斷系統(tǒng)發(fā)育網(wǎng)絡(luò)的一個Julia包。

PhyloNetworks原理

原理:通過SNaQ來實現(xiàn)網(wǎng)絡(luò)推斷,SNaQ通過估計4分類群子集的最大偽似然來加速運算,估計的網(wǎng)絡(luò)不受根的影響。

PhyloNetworks輸入輸出

輸入:newick格式基因樹(多個基因樹組成的文件)

輸出:系統(tǒng)發(fā)育網(wǎng)絡(luò),基因流方向和雜交節(jié)點貢獻比例

PhyloNetworks優(yōu)勢和不足

推斷系統(tǒng)發(fā)育網(wǎng)絡(luò),包括基因流的方向和強度。

相較于其他推斷系統(tǒng)發(fā)育網(wǎng)絡(luò)的軟件,PhyloNetworks集成了上游分析,網(wǎng)絡(luò)估計,引導(dǎo)分析,下游特征進化分析,繪圖等功能。

不足是運行多樣本(超過十個個體)和數(shù)據(jù)量大(超過1000個)會非常耗時(常常以星期/月計時)。

PhyloNetworks適用范圍

PhyloNetworks適用于基因樹數(shù)據(jù)

適用于居群間或物種間的基因流推測

適用于推斷基因流方向和強度

2.1.3. TreeMix

TreeMix blog

TreeMix簡介

TreeMix利用等位基因頻率來推斷群體間分化和雜合(基因流動或基因滲入)

TreeMix輸入輸出

輸入:基因組snp的vcf文件,和居群系統(tǒng)樹(可選optional)

輸出:最佳雜交次數(shù)和系統(tǒng)發(fā)育網(wǎng)絡(luò)(包含雜交方向和強度)

TreeMix優(yōu)勢和不足

TreeMix和PhyloNetworks一樣,也是推斷系統(tǒng)發(fā)育網(wǎng)絡(luò)。

我自己用時,有些PhyloNetworks報錯無法定根和邊緣錯誤的情況TreeMix可以找到最佳雜交次數(shù)。

不足是比PhyloNetworks更耗時,超級耗時。

2.1.4. 3s

3s blog

3s簡介

3s利用似然率來推斷兩個物種/群體間的基因流方向和強度

3s輸入

輸入:基因組或其他測序序列phylip文件

輸出:基因流方向和強度

3s優(yōu)勢和不足

隨著數(shù)據(jù)量線性增加運算時間,運算快,適合基因組數(shù)據(jù)。

一次只能檢測三個物種/群體,無法建立系統(tǒng)發(fā)育網(wǎng)。

3. reference

wiki: gene flow:https://en.wikipedia.org/wiki/Gene_flow

wiki: introgression:https://en.wikipedia.org/wiki/Introgression

Dsuite paper:https://onlinelibrary.wiley.com/doi/10.1111/1755-0998.13265

PhyloNetworks paper:https://academic.oup.com/mbe/article/34/12/3292/4103410

TreeMix paper:https://www.nature.com/articles/npre.2012.6956.1

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容