系統(tǒng)發(fā)育樹的構(gòu)建在大學(xué)學(xué)過并用來做畢設(shè),可是感覺自己在進(jìn)化樹的構(gòu)建上面仍有一些知識/技能模塊的缺失,恰好導(dǎo)師請了一位做進(jìn)化的好友專門過來給我講解了進(jìn)化樹的構(gòu)建,讓我能補齊一些知識。
數(shù)據(jù)
序列根據(jù)需要可以選取不同類型(cds、dna、rna、protein...)和不同位置(基因家族的全長序列、基因家族某個結(jié)構(gòu)域的序列、非編碼序列...)。在序列選取過程中盡量排除具有誘導(dǎo)性的序列。實驗過程所用的是一組病毒中某基因家族的cds序列。
>less -S gB.fas#共有80條。
例:
>AF257079
ATGCCCGCTGGTGGCGGTCTTTGGCGCGGGCCCCGCGGGCATCGGCCCGGGCACCACGGCGGTGCTGGCCTCGGACGTCTTTGGCCTGCTCCACACCACGCTGCAGCTGCGCGGGGCGCCGTCGCGCTAGCGCTGCTGCTGCTGGCGCTCGCCGCGACCCCGACGTGCGGCGCGGCGGCCGTGACGCGGGCCGCCTCGGCCTCGCCCGCGCCCGGGACGGGCGCCACCCCAGACGGCTTCTCCACGGAGGAGTCCCTCGAGGAGATCGACGGGGCCGTCTCCCCCGGCCCCTCGGACGCCCCCGACGGCGAGTACGGCGACCTGGACGCGCGCACGGCCGTGCGCGCGGCCGCGACCGAGCGGGACCGCTTCTACGTCTGCCCGCCGCCGTCCGGCTCCACGGTGGTGCGCCTGGAGCCCGAGCAGGCCTGCCCCGAGTACTCGCAGGGGCGCAACTTCACGGAGGGGATCGCCGTGCTCTTCAAGGAGAACATCGCCCCGCACAAGTTCAAGGCCCACATCTACTACAAGAACGTCATCGTCACGACCGTGTGGTCCGGGAGCACGTACGCGGCCATCACGAACCGCTTCACGGACCGCGTGCCCGTCCCCGTGCAGGAGATCACGGACGTGATCGACCGCCGCGGCAAGTGCGTCTCCAAGGCCGAGTACGTGCGCAACAACCACAAGGTGACCGCCTTCGACCGCGACGAGAACCCCGTCGAGGTGGACCTGCGCCCCTCGCGCCTGAACGCGCTCGGCACCCGCGGCTGGCACACCACCAACGACACCTACACCAAGATCGGCGCCGCGGGCTTCTACCACACGGGCACCTCCGTCAACTGCATCGTCGAGGAGGTGGAGGCGCGCTCCGTGTACCCCTACGACTCCTTCGCCCTGTCCACGGGGGACATCGTGTACATGTCCCCCTTCTACGGCCTGCGCGAGGGGGCCCACGGGGAGCACATCGGCTACGCGCCCGGGCGCTTCCAGCAGGTGGAGCACTACTACCCCATCGACCTGGACTCGCGCCTCCGCGCCTCCGAGAGCGTGACGCGCAACTTTCTGCGCACGCCGCACTTCACGGTGGCCTGGGACTGGGCCCCCAAGACGCGGCGCGTGTGCAGCCTGGCCAAGTGGCGCGAGGCCGAGGAGATGATCCGCGACGAGACGCGCGGCGGGTCCTTCCGCTTCACGTCGCGGGCCCTGGGCGCCTCCTTCGTCAGCGACGTCACGCAGCTCGACCTGCAGCGCGTGCACCTGGGCGACTGCGTCCTCCGCGAGGCCTCGGAGGCCATCGACGCCATCTACCGGCGGCGCTACAACAACACGCACGTGCTGGCCGGCGACAGGCCCGAGGTGTACCTCGCCCGCGGGGGCTTCGTGGTGGCCTTCCGCCCGCTGATCTCGAACGAGCTGGCGCAGCTGTACGCGCGCGAGCTCGAGCGCCTCGGCCTCGCCGGCGTCGTGGGCCCCGCGTCCCCCGCGGCCGCCCGTCGGGCCCGGCGCTCCCCCGGCCCGGCGGGGACGCCCGAGCCGCCGGCCGTCAACGGCACGGGGCACCTGCGCATCACCACGGGCTCGGCCGAGTTTGCGCGCCTGCAGTTCACCTACGACCACATCCAGGCGCACGTGAACGACATGCTGAGCCGCATCGCGGCCGCCTGGTGCGAGCTGCATAACAAGGACCGCACCCTGTGGGGCGAGATGTCGCGCCTGAACCCCAGCGCCGTGGCCACGGCCGCGCTGGGCCAGCGCGTCTCGGCGCGCATGCTCGGCGACGTGATGGCCATCTCGCGGTGCGTGGAGGTGCGCGGCGGCGTGTACGTGCAGAACTCCATGCGCGTGCCCGGCGAGCGCGGCACGTGCTACAGCCGCCCGCTGGTGACCTTCGAGCACAACGGCACGGGCGTGATCGAGGGCCAGCTCGGCGACGACAACGAGCTCCTCATCTCGCGCGACCTCATCGAGCCCTGCACCGGCAACCACCGGCGCTACTTTAAGCTGGGCGGCGGGTACGTGTACTACGAGGACTACAGCTACGTGCGCATGGTGGAGGTGCCCGAGACGATCAGCACGCGGGTGACCCTGAACCTGACGCTGCTCGAGGACCGCGAGTTCCTGCCCCTCGAGGTGTACACGCGCGAGGAGCTCGCCGACACGGGCCTCCTGGACTACAGCGAGATCCAGCGCCGCAACCAGCCGCACACGCTCAAGTTCTACGACATTGACCGCGTGGTCAAGGTGGACCACAACGTGGTGCTGCTGCGCGGCATCGCCAACTTCTTCCAGGGCCTCGGCGACGTGGGCGCCGCCGTCGGCAAGGTGGTCCTGGGCGCCACGGGGGCCGTGATCTCGGCCGTCGGCGGCATGGTGTCCTTCCTGTCCAACCCCTTCGGGGCGCTCGCCATCGGGCTGCTGGTGCTGGCCGGCCTGGTCGCGGCCTTCCTGGCCTACCGGCACATCTCGCGCCTGCGCCGCAACCCCATGAAGGCCCTGTACCCCGTCACGACGAAGGCGCTCAAGGAGGACGGCGTCGAAGAGGACGACGTGGACGAGGCCAAGCTGGACCAGGCCCGGGACATGATCCGGTACATGTCCATCGTGTCGGCCCTCGAGCAGCAGGAGCACAAGGCGCGCAAGAAGAACAGCGGGCCCGCGCTGCTGGCCAGCCGCGTCGGGGTGATGGCCACGCGCCGCCGGCACTACCAGCGCCTC
>GQ325658
ATGCCCGCTGGTGGCGGTCTTTGGCGCGGGCCCCGCGGGCATCGGCCCGGGCACCACGGCGGTGCTGGCCTCGGACGTCTTTGGCCTGCTCCACACCACGCTGCAGCTGCGCGGGGCGCCGTCGCGCTAGCGCTGCTGCTGCTGGCGCTCGCCGCGGCCCCGCCGTGCGGCGCGGCGGCCGTGACGCGGGCCGCCTCGGCCTCGCCGACGCCCGTCCCGGGCAGCCCCGGCCTCACCCCCAACGACGTCTCCGCGGAGGCGTCCCTCGAGGAGATCGAGGCGTTCACCCCCGGCCCCTCGGAGGCCCCCGACGGCGAGTACGGCGACCTGGACGCGCGCACGGCCGTGCGCGCGGCCGCGACCGAGCGGGACCGCTTCTACGTCTGCCCGCCGCCGTCCGGCTCCACGGTGGTGCGCCTGGAGCCCGAGCGGGCCTGCCCCGAGTACTCGCAGGGGCGCAACTTCACGGAGGGGATCGCCGTGCTCTTCAAGGAGAACATCGCCCCGCACAAGTTCAAGGCCCACATCTACTACAAGAACGTCATCGTCACGACCGTGTGGTCCGGGAGCACGTACGCGGCCATCACGAACCGCTTCACGGACCGCGTGCCCGTCCCCGTGCAGGAGATCACGGACGTGATCGACCGCCGCGGCAAGTGCGTCTCCAAGGCCGAGTACGTGCGCAACAACCACAAGGTGACCGCCTTCGACCGCGACGAGAACCCCGTCGAGGTGGACCTGCGCCCCTCGCGCCTGAACGCGCTCGGCACCCGCGGCTGGCACACCACCAACGACACCCACACCAAGATCGGCGCCGCGGGCTTCTACCACACGGGCACCTCCGTCAACTGCATCGTCGAGGAGGTGGAGGCGCGCTCCGTGTACCCCTACGACTCCTTCGCCCTGTCCACGGGGGACATTGTGTACATGTCCCCCTTCTACGGCCTGCGCGAGGGGGCCCACGGGGAGCACATCGGCTACGCGCCCGGGCGCTTCCAGCAGGTGGAGCACTACTACCCCATCGACCTGGACTCGCGCCTCCGCGCCTCCGAGAGCGTGACGCGCAACTTTCTGCGCACGCCGCACTTCACGGTGGCCTGGGACTGGGCCCCCAAGACGCGGCGCGTGTGCAGCCTGGCCAAGTGGCGCGAGGCCGAGGAGATGATCCGCGACGAGACGCGCGACGGGTCCTTCCGCTTCACGCCGCGGGCCCTGGGCGCCTCCTTCGTCAGCGACGTCACGCAGCTGGACCTGCAGCGCGTGCACCTGGGCGACTGCGTCCTCCGCGAGGCCTCGGAGGCCATCGACGCCATCTACCAGCGGCGCTACAACAACACGCACGTGCTGGCCGGCGACAGGCCCGAGGTGTACCTCGCCCGCGGGGGCTTCGTGGTGGCCTTCCGCCCGCTGATCTCGAACGAGCTGGCGCAGCTGTACGCGCGCGAGCTCGAGCGCCTCGGCCTCGCCGGCGTCGTGGGCCCCGCGTCCCCCGCGGCGGCCCGGCGGGCCCGGCGCGCCGCCGGGCAGGCGGGGACGCCCGAGCCGCCGGCCGTCAACGGCACGGGGCACCTGCGCATCACCACGGGCTCGGCGGAGTTTGCGCGCCTGCAGTTCACCTACGACCACATCCAGGCGCACGTGAACGACACGCTGGGCCGCATCGCGGCCGCCTGGTGCGAGCTGCAGAACAAGGACCGCACCCTGTGGAGCGAGATGTCGCGCCTGAACCCCAGCGCCGTGGCCACGGCCGCGCTCGGCCAGCGCGTCTNGGCGCGCATGCTNGGCGACGTGATGGCCATCTCGCGGTGCGTGGAGGTGCGCGGCGGCGTGTACGTGCAGAACTCCATGCGCGTGCCCGGCGAGCGCGGCACGTGCTACAGCCGCCCGCTGGTCACCTTCGAGCACAACGGCACGGGCGTGATCGAGGGCCAGCTCGGCGACGACAACGAGCTCCTCATCTCGCGCGACCTCATCGAGCCCTGCACCGGCAACCACCGGCGCTACTTTAAGCTGGGGAGCGGGTACGTGTACTACGAGGACTACAGCTACGTGCGCATGGTGGAGGTGCCCGAGACGATCAGCACGCGGGTGACCCTGAACCTGACGCTGCTGGAGGACCGCGAGTTCCTGCCCCTCGAGGTGTACACGCGCGAGGAGCTCGCCGACACGGGCCTCCTGGACTACAGCGAGATCCAGCGCCGCAACCAGCTGCACGCGCTCAAGTTCTACGACATCGACCGCGTGGTCAAGGTGGACCACAACGTGGTGCTGCTGCGCGGCATCGCCAACTTCTTCCAGGGCCTCGGCGACGTGGGCGCCGCCGTCGGCAAGGTGGTCCTGGGCGCCACGGGGGCCGTGATCTCGGCCGTCGGCGGCATGGTGTCCTTCCTGTCCAACCCCTTCGGGGCGCTCGCCATCGGGCTGCTGGTGCTGGCCGGCCTGGTCGCGGCCTTCCTGGCCTACCGGCACATCTCGCGCCTGCGTCGCAACCCCATGAAGGCCCTGTACCCCGTCACGACGAAGACGCTCAAGGAGGACGGCGTCGACGAGGGCGACGTGGACGAGGCCAAGCTGGACCAGGCCCGGGACATGATCCGGTACATGTCCATCGTGTCGGCCCTCGAGCAGCAGGAGCACAAGGCGCGCAAGAAGAACAGCGGGCCCGCGCTGCTGGCCAGCCGCGTCGGGGCGATGGCCACGCGCCGCCGGCACTACCAGCGCCTCGAGAGCGAGGACCCCGACGCCCTGTAG
>KF711983
GGCCCATCGGAGGCCCCCGACGGCGAGTACGGCGACCTGGACGCGCGCACGGCCGTGCGCGCGGCCGCGACCGAGCGGGACCGCTTCTACGTCTGCCCGCCGCCGTCCGGCTCCACGGTGGTGCGCCTGGAGCCCGAGCAGGCCTGCCCCGAGTACTCGCAGGGGCGCAACTTCACGGAGGGGATCGCCGTGCTCTTCAAGGAGAACATCGCCCCGCACAAGTTCAAGGCCCACATCTACTACAAGAACGTCATCGTCACGACCGTGTGGTCCGGGAGCACGTACGCGGCCATCACGAACCGCTTCACGGACCGCGTGCCCGTCCCCGTGCAGGAGATCACGGACGTGATCGACCGCCGCGGCAAGTGCGTCTCCAAGGCCGAGTACGTGCGCAACAACCACAAGGTGACCGCCTTCGACCGCGATGAGAACCCCGTCGAGGTGGACCTGCGCCCCTCGCGCCTGAACGCGCTCGGCACCCGCGGCTGGCACACCACCAACGACACCTACACCAAGATCGGCGCCGCGGGCTTCTACCACACGGGCACCTCCGTCAACTGCATCGTCGAGGAGGTGGAGGCGCGCTCCGTGTACCCCTACGACTCCTTCGCCCTGTCCACGGGGGACATCGTGTACATGTCCCCCTTCTACGGCCTGCGCGAGGGGGCCCACGGGGAGCACATCGGCTACGCGCCCGGGCGCTTCCAGCAGGTGGAGCACTACTACCCCATCGACCTGGACTCGCGCCTCCGCGCCTCCGAGAGCGTGACGCGCAACTTTCTGCGCACGCCGCACTTCACGGTGGCCTGGGACTGGGCCCCAAAGACGCGGCGCGTGTGCAGCCTGGCCAAGTGGCGCGAGGCCGAGGAGATGATCCGCGACGAGACGCGCGACGGGTCCTTCCGCTTCACGTCGCGGGCCCTGGGCGCCTCCTTCGTCAGCGACGTCACGCAGCTCGACCTGCAGCGCGTGCACCTGGGCGACTGCGTCCTCCGCGAGGCCTCGGAGGCCATCGACGCCATCTACCGGCGGCGCTACAACAACACGCACGTGCTGGCCGGCGACAAGCCCGAGGTGTACCTCGCCCGCGGGGGCTTCGTGGTGGCCTTCCGCCCGCTGATCTCGAACGAGCTGGCGCAGCTGTACGCGCGCGAGCTCGAGCGCCTCGGCCTCGCCGGCGTCGTGGGCCCCGCGTCCCCCGCGGCCGCCCGTCGGGCCCGGCGCTCCCCCGGCCCGGCGGGGACGCCCGAGCCGCCGGCCGTCAACGGCACGGGGCACCTGCGCATCACCACGGGCTCGGCCGAGTTTGCGCGCCTGCAGTTCACCTACGACCACATCCAGGCGCACGTGAACGACATGCTGAGCCGCATCGCGGCCGCCTGGTGCGAGCTGCAGAACAAGGACCGCACCCTGTGGGGCGAGATGTCGCGCCTGAACCCCAGCGCCGTGGCCACGGCCGCGCTGGGCCAGCGCGTCTCGGCGCGCATGCTCGGCGACGTGATGGCCATCTCGCGGTGCGTGGAGGTGCGCGGCGGCGTGTACGTGCAGAACTCCATGCGCGTGCCCGGCGAGCGCGGCACGTGCTACAGCCGCCCGCTGGTGACCTTCGAGCACAACGGCACGGGCGTGATCGAGGGCCAGCTCGGCGACGACAACGAGCTCCTCATCTCGCGCGACCTCATCGAGCCCTGCACCGGCAACCACCGGCGCTACTTTAAGCTGGGCGGCGGGTACGTGTACTACGAGGACTACAGCTACGTGCGCATGGTGGAGGTGCCCGAGACGATCAGCACGCGGGTGACCCTGAACCTGACGCTGCTCGAGGACCGCGAGTTCCTGCCCCTCGAGGTGTACACGCGCGAGGAGCTCGCCGACACGGGCCTCCTGGACTACAGCGAGATCCAGCGCCGCAACCAGCTGCACGCGCTCAAGTTCTAC
>KJ526432
ATGCCCGCTGGTGGCGGTCTTTGGCGCGGGCCCCGCGGGCATCGGCCCGGGCACCACGGCGGTGCTGGCCTCGGACGTCTTTGGCCTGCTCCACACCACGCTGCAGCTGCGCGGGGCGCCGTCGCGCTAGCGCTGCTGCTGCTGGCGCTCGCCGCGACCCCGACGTGCGGCGCGGCGGCCGTGACGCGGGCCGCCTCGGCCTCGCCCGCGCCCGGGACGGGCGCCACCCCAGACGGCTTCTCCACGGAGGAGTCCCTCGAGGAGATCGACGGGGCCGTCTCCCCCGGCCCCTCGGACGCCCCCGACGGCGAGTACGGCGACCTGGACGCGCGCACGGCCGTGCGCGCGGCCGCGACCGAGCGGGACCGCTTCTACGTCTGCCCGCCGCCGTCCGGCTCCACGGTGGTGCGCCTGGAGCCCGAGCAGGCCTGCCCCGAGTACTCGCAGGGGCGCAACTTCACGGAGGGGATCGCCGTGCTCTTCAAGGAGAACATCGCCCCGCACAAGTTCAAGGCCCACATCTACTACAAGAACGTCATCGTCACGACCGTGTGGTCCGGGAGCACGTACGCGGCCATCACGAACCGCTTCACGGACCGCGTGCCCGTCCCCGTGCAGGAGATCACGGACGTGATCGACCGCCGCGGCAAGTGCGTCTCCAAGGCCGAGTACGTGCGCAACAACCACAAGGTGACCGCCTTCGACCGCGACGAGAACCCCGTCGAGGTGGACCTGCGCCCCTCGCGCCTGAACGCGCTCGGCACCCGCGGCTGGCACACCACCAACGACACCTACACCAAGATCGGCGCCGCGGGCTTCTACCACACGGGCACCTCCGTCAACTGCATCGTCGAGGAGGTGGAGGCGCGCTCCGTGTACCCCTACGACTCCTTCGCCCTGTCCACGGGGGACATCGTGTACATGTCCCCCTTCTACGGCCTGCGCGAGGGGGCCCACGGGGAGCACATCGGCTACGCGCCCGGGCGCTTCCAGCAGGTGGAGCACTACTACCCCATCGACCTGGACTCGCGCCTCCGCGCCTCCGAGAGCGTGACGCGCAACTTTCTGCGCACGCCGCACTTCACGGTGGCCTGGGACTGGGCCCCCAAGACGCGGCGCGTGTGCAGCCTGGCCAAGTGGCGCGAGGCCGAGGAGATGATCCGCGACGAGACGCGCGACGGGTCCTTCCGCTTCACGTCGCGGGCCCTGGGCGCCTCCTTCGTCAGCGACGTCACGCAGCTCGACCTGCAGCGCGTGCACCTGGGCGACTGCGTCCTCCGCGAGGCCTCGGAGGCCATCGACGCCATCTACCGGCGGCGCTACAACAACACGCACGTGCTGGCCGGCGACAGGCCCGAGGTGTACCTCGCCCGCGGGGGCTTCGTGGTGGCCTTCCGCCCGCTGATCTCGAACGAGCTGGCGCAGCTGTACGCGCGCGAGCTCGAGCGCCTCGGCCTCGCCGGCGTCGTGGGCCCCGCGTCCCCCGCGGCCGCCCGTCGGGCCCGGCGCTCCCCCGGCCCGGCGGGGACGCCCGAGCCGCCGGCCGTCAACGGCACGGGGCACCTGCGCATCACCACGGGCTCGGCCGAGTTTGCGCGCCTGCAGTTCACCTACGACCACATCCAGGCGCACGTGAACGACATGCTGAGCCGCATCGCGGCCGCCTGGTGCGAGCTGCATAACAAGGACCGCACCCTGTGGGGCGAGATGTCGCGCCTGAACCCCAGCGCCGTGGCCACGGCCGCGCTGGGCCAGCGCGTCTCGGCGCGCATGCTCGGCGACGTGATGGCCATCTCGCGGTGCGTGGAGGTGCGCGGCGGCGTGTACGTGCAGAACTCCATGCGCGTGCCCGGCGAGCGCGGCACGTGCTACAGCCGCCCGCTGGTGACCTTCGAGCACAACGGCACGGGCGTGATCGAGGGCCAGCTCGGCGACGACAACGAGCTCCTCATCTCGCGCGACCTCATCGAGCCCTGCACCGGCAACCACCGGCGCTACTTTAAGCTGGGCGGCGGGTACGTGTACTACGAGGACTACAGCTACGTGCGCATGGTGGAGGTGCCCGAGACGATCAGCACGCGGGTGACCCTGAACCTGACGCTGCTCGAGGACCGCGAGTTCCTGCCCCTCGAGGTGTACACGCGCGAGGAGCTCGCCGACACGGGCCTCCTGGACTACAGCGAGATCCAGCGCCGCAACCAGCTGCACACGCTCAAGTTCTACGACATTGACCGCGTGGTCAAGGTGGACCACAACGTGGTGCTGCTGCGCGGCATCGCCAACTTCTTCCAGGGCCTCGGCGACGTGGGCGCCGCCGTCGGCAAGGTGGTCCTGGGCGCCACGGGGGCCGTGATCTCGGCCGTCGGCGGCATGGTGTCCTTCCTGTCCAACCCCTTCGGGGCGCTCGCCATCGGGCTGCTGGTGCTGGCCGGCCTGGTCGCGGCCTTCCTGGCCTACCGGCACATCTCGCGCCTGCGCCGCAACCCCATGAAGGCCCTGTACCCCGTCACGACGAAGGCGCTCAAGGAGGACGGCGTCGAAGAGGACGACGTGGACGAGGCCAAGCTGGACCAGGCCCGGGACATGATCCGGTACATGTCCATCGTGTCGGCCCTCGAGCAGCAGGAGCACAAGGCGCGCAAGAAGAACAGCGGGCCCGCGCTGCTGGCCAGCCGCGTCGGGGTGATGGCCACGCGCCGCCGGCACTACCAGCGCCTCGAGAGCGAGGACCCCGACGCCCTGTAG
...................................
建樹流程
1.進(jìn)行多序列比對
軟件有:prank、mafft、muscle等。其中prank最準(zhǔn)確,但耗費的時間和計算機資源最多,所以一般用于序列少的數(shù)據(jù)(100條左右的序列)。mafft又比muscle快,適合在大數(shù)據(jù)量的比對中使用。
2.保守區(qū)的選取
Gblocks,輸入文件為比對過后的序列文件,能篩選出保守區(qū)。
3.尋找適合的model
使用Jmodel找出最適合的模型,用于后續(xù)建樹的使用,增加可靠性。
4.建樹
建樹軟件有非常多,一般主要用ML和貝葉斯方法,NJ比較適合相似的序列。最好能同時使用ML和貝葉斯兩種方法進(jìn)行建樹,然后對比它們結(jié)果。
上機操作
序列比對
上機使用muscle進(jìn)行多序列比對(有機會多嘗試幾種比對的方法,對比它們的比對結(jié)果)。
muscle 下載網(wǎng)址http://www.drive5.com/muscle/downloads.htm
commond
./muscle3.8.31_i86linux64 -in gB.fas -out gB_muscleOut.fas
結(jié)果
使用mega打開

保守區(qū)的選擇
使用Gblocks服務(wù)網(wǎng)站進(jìn)行保守區(qū)的篩選,也可以用本地版的Gblocks
將muscle比對后的文件上傳至網(wǎng)頁。
因為實驗中的序列是cds序列,所以應(yīng)選擇codons選項,其他選項不選。
提交后會彈出來一個結(jié)果頁面:

等完全載入后,直接下載頁面最下方的輸出文件(result aligment)
尋找適合的model
先要將上一步得到的blocks序列文件(result aligment)轉(zhuǎn)化成phylips格式文件(使用jmodeltest)#因為忽然連不上服務(wù)器,沒法重新跑一次流程,就直接粘貼上次用的命令----記得重新跑一次
java -jar jModelTest.jar -d gB_out_muscle_gblocks.fas -getPhylip >gB_out_muscle_gblocks.phy
開始進(jìn)行model的尋找
java -jar jModelTest.jar -BIC -d gB_out_muscle_gblocks.phy -f -g 4 -i -o gB_out_muscle_gblocks.fas.bic -s 203 -S BEST -tr 50
-s 203表示在203個model(即全部的model)中尋找,如果使用默認(rèn)值可能有些model會被忽略。
閱讀輸出文件最后的部分,找出最優(yōu)模型
tail gB_out_-_gblocks.fas.bic

此最優(yōu)模型為 TIM1+I+G 這些需要作為參數(shù)輸入phyml(本實驗使用的建樹方法)

有時需要進(jìn)行參數(shù)的換算,可以參照表格

所以最佳參數(shù)為 -m 012230 -a 0.98 -v 0.31
進(jìn)行進(jìn)化樹的構(gòu)建
軟件的安裝(這邊使用的是mpi版的)
tar -zvxf phyml-20120412.tar.gz
cd phyml-20120412
mkdir phyml_1
./configure --prefix=/home/wangjl/tree_test/phyml-20120412/phyml_1/ --enable-mpi
make
進(jìn)化樹的構(gòu)建:
mpirun -np 50 phyml-mpi -i gB_out_-_gblocks.fas.phy -d nt -b 1000 -s BEST -o tlr -m 012230 -a 0.98 -v 0.31 --no_memory_check #有一個 -m 參數(shù),需要輸入jmodeltest得到的最優(yōu)模型,具體要研究·jmodeltest和參數(shù)說明。-b表示進(jìn)行1000bootstrap
結(jié)果可以用mega或itol查看。
進(jìn)化樹的美化:建議使用itol(http://itol.embl.de/)(通過寫配置文件可以實現(xiàn)比較炫的美化效果)