不完全譜系分選和基因滲入-Hyde

1.簡介

HyDe使用系統(tǒng)發(fā)育不變量檢測系統(tǒng)發(fā)育數(shù)據(jù)集中的雜交,主要通過python包Phyde對三元組分類群進行假設(shè)檢驗,以檢測雜交。

2.安裝

2.1 配置環(huán)境

#使用conda安裝軟件依賴
conda install cython numpy multiprocess
#方法1安裝:進入python環(huán)境,使用pip安裝
pip install phyde
#方法2安裝:從github安裝
git clone https://github.com/pblischak/HyDe.git
cd Hyde
python3 -m pip install .
make test #可以不用,只是用來檢測是否安裝成功的
make test_threads #可以不用,只是用來檢測是否安裝成功的

3.輸入文件

3.1 DNA序列

典型的phylip格式,第一行表示該文件有16個樣本,位點數(shù)目為10,后續(xù)每行包含一個樣本及其序列,用tab分隔。每個樣本的名字長度沒有限制且可以不相等。

16 10
i1  ATAGTCACCA
i2  ATAGTCACCA
i3  ATAGTCACCA
i4  ATAGTCACCA
i5  ATAGTCATCA
i6  ATAGTCACCA
i7  ATAGTCACCA
i8  ATAGTCACCA
i9  ATTGTCACCA
i10  ATAGTCACCA
i11  ATAGTCACCA
i12  ATCGTCACCA
i13  ATAGTCACCA
i14  ATCGTCACCA
i15  ATCGTCACCA
i16  ATAGTCTCCA

3.2 樣本對應(yīng)關(guān)系

每行包含一個樣本和標簽,用tab分隔,并且樣本的名字順序必須和DNA序列文件中的樣本順序一致。

i1      sp1
i2      sp1
i3      sp1
i4      sp1
i5      sp1
i6      sp2
i7      sp2
i8      sp2
i9      sp2
i10     sp2
i11     sp3
i12     sp3
i13     sp3
i14     sp3
i15     sp3
i16     out

3.3 三元組文件(可選)

可選輸入文件,輸入感興趣的三元組文件,第一列為親本1,第二列為假定的雜交物種,第三列為親本2

sp1  sp2  sp3
sp1  sp3  sp2
sp2  sp1  sp3

4. 輸出文件

4.1 第一步

#-i就是DNA序列文件,-m就是樣本對應(yīng)關(guān)系,-o輸出前綴,-n樣本數(shù)量,-t分組數(shù)量,-s位點數(shù)量,-j線程數(shù)量
#-tr:如果有想測試的三元組,按照三元組文件格式輸入即可;如果沒有,軟件默認是輸入數(shù)據(jù)的所有三元組
#--prefix:輸出前綴也可以修改,默認是hyde
#-p:默認過濾的P值為0.05
#--ignore_amb_sites:是否忽略gap/不確定的堿基位點
python /path/run_hyde_mp.py -i input.phy -m map.txt -o out -n 16 -t 4 -s 50000 -j 10

輸出文件有兩個,一個是所有三元組的文件<prefix>-out.txt,一個是過濾后的三元組文件<prefix>-out-filtered.txt,第一列為親本1,第二列為雜交種,第三列為親本2,第四列為Zscore,第五列為P值,第六列為Gamma值,解釋為雜交種來源于P2的比例(不要懷疑,你沒看錯,就是P2),后續(xù)的列為每個位點的數(shù)目。

4.2 第二步(可選步驟)

#運行完第一步后,如果想看一個群體種多個個體之間的或者不同群體多個個體之間的雜交信息,可以將想測試的三元組按照三元組文件格式輸入即可
python /path/individual_hyde_mp.py -i input.phy -m map.txt -o out -n 16 -t 4 -s 50000 -tr triples.txt -j 10

如果你每個群體只有一個個體,那么就不用做第二步了。

4.3 第三步(可選步驟)

#-r: bootstrap的重復(fù)次數(shù),默認是100
python /path/bootstrap_hyde_mp.py -i input.phy -m map.txt -o out -n 16 -t 4 -s 50000 -tr triples.txt -j 10 -r 200

官方推薦:如果DNA序列的位點數(shù)目≥10000,就運行第二步;如果DNA序列的位點數(shù)目<10000,就運行第三步;

5. 原理講解

5.1 系統(tǒng)發(fā)育不變量

系統(tǒng)發(fā)育不變量是指在許多常見的生物序列沿著進化樹進化模型中,現(xiàn)存分類群中堿基模式的頻率滿足系統(tǒng)發(fā)育不變量的多項式關(guān)系。
對于一個有根的四元組(親本1、親本2、雜交種、外群)有以下拓樸結(jié)構(gòu):(((P1,Hyb),P2),O),我們描述該四元組可能位點模式的概率分布為:P(ijkl) = P(O = i, P1 = j, Hyb = k, P2 = l), with i, j, k, l ∈ {A, G, C, T}。當位點數(shù)目足夠多時,已經(jīng)通過模擬和經(jīng)驗分析表明,多位點數(shù)據(jù)為模型提供了良好的近似,并且可以用于計算位點模式概率。有研究表明f1 = piijj ? pijij和f2 = pijji ? pijij的比值擬合模型更好,這也是Hyde檢測的基礎(chǔ)邏輯。


Hyde-Gamma計算

5.2 Gamma值

根據(jù)上面的公式可以看出Gamma值理論是在負無窮大到正無窮大的,但是基于生物學(xué)假設(shè)來說雜交種來源于親本的概率為[0,1],因此第一步的腳本run_hyde_mp.py生成的兩個文件<prefix>-out.txt是所有三元組的結(jié)果,而<prefix>-out-filtered.txt是Gamma值[0,1]之間的三元組結(jié)果。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容