1.簡介
HyDe使用系統(tǒng)發(fā)育不變量檢測系統(tǒng)發(fā)育數(shù)據(jù)集中的雜交,主要通過python包Phyde對三元組分類群進行假設(shè)檢驗,以檢測雜交。
2.安裝
2.1 配置環(huán)境
#使用conda安裝軟件依賴
conda install cython numpy multiprocess
#方法1安裝:進入python環(huán)境,使用pip安裝
pip install phyde
#方法2安裝:從github安裝
git clone https://github.com/pblischak/HyDe.git
cd Hyde
python3 -m pip install .
make test #可以不用,只是用來檢測是否安裝成功的
make test_threads #可以不用,只是用來檢測是否安裝成功的
3.輸入文件
3.1 DNA序列
典型的phylip格式,第一行表示該文件有16個樣本,位點數(shù)目為10,后續(xù)每行包含一個樣本及其序列,用tab分隔。每個樣本的名字長度沒有限制且可以不相等。
16 10
i1 ATAGTCACCA
i2 ATAGTCACCA
i3 ATAGTCACCA
i4 ATAGTCACCA
i5 ATAGTCATCA
i6 ATAGTCACCA
i7 ATAGTCACCA
i8 ATAGTCACCA
i9 ATTGTCACCA
i10 ATAGTCACCA
i11 ATAGTCACCA
i12 ATCGTCACCA
i13 ATAGTCACCA
i14 ATCGTCACCA
i15 ATCGTCACCA
i16 ATAGTCTCCA
3.2 樣本對應(yīng)關(guān)系
每行包含一個樣本和標簽,用tab分隔,并且樣本的名字順序必須和DNA序列文件中的樣本順序一致。
i1 sp1
i2 sp1
i3 sp1
i4 sp1
i5 sp1
i6 sp2
i7 sp2
i8 sp2
i9 sp2
i10 sp2
i11 sp3
i12 sp3
i13 sp3
i14 sp3
i15 sp3
i16 out
3.3 三元組文件(可選)
可選輸入文件,輸入感興趣的三元組文件,第一列為親本1,第二列為假定的雜交物種,第三列為親本2
sp1 sp2 sp3
sp1 sp3 sp2
sp2 sp1 sp3
4. 輸出文件
4.1 第一步
#-i就是DNA序列文件,-m就是樣本對應(yīng)關(guān)系,-o輸出前綴,-n樣本數(shù)量,-t分組數(shù)量,-s位點數(shù)量,-j線程數(shù)量
#-tr:如果有想測試的三元組,按照三元組文件格式輸入即可;如果沒有,軟件默認是輸入數(shù)據(jù)的所有三元組
#--prefix:輸出前綴也可以修改,默認是hyde
#-p:默認過濾的P值為0.05
#--ignore_amb_sites:是否忽略gap/不確定的堿基位點
python /path/run_hyde_mp.py -i input.phy -m map.txt -o out -n 16 -t 4 -s 50000 -j 10
輸出文件有兩個,一個是所有三元組的文件<prefix>-out.txt,一個是過濾后的三元組文件<prefix>-out-filtered.txt,第一列為親本1,第二列為雜交種,第三列為親本2,第四列為Zscore,第五列為P值,第六列為Gamma值,解釋為雜交種來源于P2的比例(不要懷疑,你沒看錯,就是P2),后續(xù)的列為每個位點的數(shù)目。
4.2 第二步(可選步驟)
#運行完第一步后,如果想看一個群體種多個個體之間的或者不同群體多個個體之間的雜交信息,可以將想測試的三元組按照三元組文件格式輸入即可
python /path/individual_hyde_mp.py -i input.phy -m map.txt -o out -n 16 -t 4 -s 50000 -tr triples.txt -j 10
如果你每個群體只有一個個體,那么就不用做第二步了。
4.3 第三步(可選步驟)
#-r: bootstrap的重復(fù)次數(shù),默認是100
python /path/bootstrap_hyde_mp.py -i input.phy -m map.txt -o out -n 16 -t 4 -s 50000 -tr triples.txt -j 10 -r 200
官方推薦:如果DNA序列的位點數(shù)目≥10000,就運行第二步;如果DNA序列的位點數(shù)目<10000,就運行第三步;
5. 原理講解
5.1 系統(tǒng)發(fā)育不變量
系統(tǒng)發(fā)育不變量是指在許多常見的生物序列沿著進化樹進化模型中,現(xiàn)存分類群中堿基模式的頻率滿足系統(tǒng)發(fā)育不變量的多項式關(guān)系。
對于一個有根的四元組(親本1、親本2、雜交種、外群)有以下拓樸結(jié)構(gòu):(((P1,Hyb),P2),O),我們描述該四元組可能位點模式的概率分布為:P(ijkl) = P(O = i, P1 = j, Hyb = k, P2 = l), with i, j, k, l ∈ {A, G, C, T}。當位點數(shù)目足夠多時,已經(jīng)通過模擬和經(jīng)驗分析表明,多位點數(shù)據(jù)為模型提供了良好的近似,并且可以用于計算位點模式概率。有研究表明f1 = piijj ? pijij和f2 = pijji ? pijij的比值擬合模型更好,這也是Hyde檢測的基礎(chǔ)邏輯。

5.2 Gamma值
根據(jù)上面的公式可以看出Gamma值理論是在負無窮大到正無窮大的,但是基于生物學(xué)假設(shè)來說雜交種來源于親本的概率為[0,1],因此第一步的腳本run_hyde_mp.py生成的兩個文件<prefix>-out.txt是所有三元組的結(jié)果,而<prefix>-out-filtered.txt是Gamma值[0,1]之間的三元組結(jié)果。