進(jìn)化樹的構(gòu)建·再識——25.3.2018,需要重新進(jìn)行跑流程/編輯

系統(tǒng)發(fā)育樹的構(gòu)建在大學(xué)學(xué)過并用來做畢設(shè),可是感覺自己在進(jìn)化樹的構(gòu)建上面仍有一些知識/技能模塊的缺失,恰好導(dǎo)師請了一位做進(jìn)化的好友專門過來給我講解了進(jìn)化樹的構(gòu)建,讓我能補齊一些知識。

數(shù)據(jù)

序列根據(jù)需要可以選取不同類型(cds、dna、rna、protein...)和不同位置(基因家族的全長序列、基因家族某個結(jié)構(gòu)域的序列、非編碼序列...)。在序列選取過程中盡量排除具有誘導(dǎo)性的序列。實驗過程所用的是一組病毒中某基因家族的cds序列。

>less -S gB.fas#共有80條。
例:
>AF257079
ATGCCCGCTGGTGGCGGTCTTTGGCGCGGGCCCCGCGGGCATCGGCCCGGGCACCACGGCGGTGCTGGCCTCGGACGTCTTTGGCCTGCTCCACACCACGCTGCAGCTGCGCGGGGCGCCGTCGCGCTAGCGCTGCTGCTGCTGGCGCTCGCCGCGACCCCGACGTGCGGCGCGGCGGCCGTGACGCGGGCCGCCTCGGCCTCGCCCGCGCCCGGGACGGGCGCCACCCCAGACGGCTTCTCCACGGAGGAGTCCCTCGAGGAGATCGACGGGGCCGTCTCCCCCGGCCCCTCGGACGCCCCCGACGGCGAGTACGGCGACCTGGACGCGCGCACGGCCGTGCGCGCGGCCGCGACCGAGCGGGACCGCTTCTACGTCTGCCCGCCGCCGTCCGGCTCCACGGTGGTGCGCCTGGAGCCCGAGCAGGCCTGCCCCGAGTACTCGCAGGGGCGCAACTTCACGGAGGGGATCGCCGTGCTCTTCAAGGAGAACATCGCCCCGCACAAGTTCAAGGCCCACATCTACTACAAGAACGTCATCGTCACGACCGTGTGGTCCGGGAGCACGTACGCGGCCATCACGAACCGCTTCACGGACCGCGTGCCCGTCCCCGTGCAGGAGATCACGGACGTGATCGACCGCCGCGGCAAGTGCGTCTCCAAGGCCGAGTACGTGCGCAACAACCACAAGGTGACCGCCTTCGACCGCGACGAGAACCCCGTCGAGGTGGACCTGCGCCCCTCGCGCCTGAACGCGCTCGGCACCCGCGGCTGGCACACCACCAACGACACCTACACCAAGATCGGCGCCGCGGGCTTCTACCACACGGGCACCTCCGTCAACTGCATCGTCGAGGAGGTGGAGGCGCGCTCCGTGTACCCCTACGACTCCTTCGCCCTGTCCACGGGGGACATCGTGTACATGTCCCCCTTCTACGGCCTGCGCGAGGGGGCCCACGGGGAGCACATCGGCTACGCGCCCGGGCGCTTCCAGCAGGTGGAGCACTACTACCCCATCGACCTGGACTCGCGCCTCCGCGCCTCCGAGAGCGTGACGCGCAACTTTCTGCGCACGCCGCACTTCACGGTGGCCTGGGACTGGGCCCCCAAGACGCGGCGCGTGTGCAGCCTGGCCAAGTGGCGCGAGGCCGAGGAGATGATCCGCGACGAGACGCGCGGCGGGTCCTTCCGCTTCACGTCGCGGGCCCTGGGCGCCTCCTTCGTCAGCGACGTCACGCAGCTCGACCTGCAGCGCGTGCACCTGGGCGACTGCGTCCTCCGCGAGGCCTCGGAGGCCATCGACGCCATCTACCGGCGGCGCTACAACAACACGCACGTGCTGGCCGGCGACAGGCCCGAGGTGTACCTCGCCCGCGGGGGCTTCGTGGTGGCCTTCCGCCCGCTGATCTCGAACGAGCTGGCGCAGCTGTACGCGCGCGAGCTCGAGCGCCTCGGCCTCGCCGGCGTCGTGGGCCCCGCGTCCCCCGCGGCCGCCCGTCGGGCCCGGCGCTCCCCCGGCCCGGCGGGGACGCCCGAGCCGCCGGCCGTCAACGGCACGGGGCACCTGCGCATCACCACGGGCTCGGCCGAGTTTGCGCGCCTGCAGTTCACCTACGACCACATCCAGGCGCACGTGAACGACATGCTGAGCCGCATCGCGGCCGCCTGGTGCGAGCTGCATAACAAGGACCGCACCCTGTGGGGCGAGATGTCGCGCCTGAACCCCAGCGCCGTGGCCACGGCCGCGCTGGGCCAGCGCGTCTCGGCGCGCATGCTCGGCGACGTGATGGCCATCTCGCGGTGCGTGGAGGTGCGCGGCGGCGTGTACGTGCAGAACTCCATGCGCGTGCCCGGCGAGCGCGGCACGTGCTACAGCCGCCCGCTGGTGACCTTCGAGCACAACGGCACGGGCGTGATCGAGGGCCAGCTCGGCGACGACAACGAGCTCCTCATCTCGCGCGACCTCATCGAGCCCTGCACCGGCAACCACCGGCGCTACTTTAAGCTGGGCGGCGGGTACGTGTACTACGAGGACTACAGCTACGTGCGCATGGTGGAGGTGCCCGAGACGATCAGCACGCGGGTGACCCTGAACCTGACGCTGCTCGAGGACCGCGAGTTCCTGCCCCTCGAGGTGTACACGCGCGAGGAGCTCGCCGACACGGGCCTCCTGGACTACAGCGAGATCCAGCGCCGCAACCAGCCGCACACGCTCAAGTTCTACGACATTGACCGCGTGGTCAAGGTGGACCACAACGTGGTGCTGCTGCGCGGCATCGCCAACTTCTTCCAGGGCCTCGGCGACGTGGGCGCCGCCGTCGGCAAGGTGGTCCTGGGCGCCACGGGGGCCGTGATCTCGGCCGTCGGCGGCATGGTGTCCTTCCTGTCCAACCCCTTCGGGGCGCTCGCCATCGGGCTGCTGGTGCTGGCCGGCCTGGTCGCGGCCTTCCTGGCCTACCGGCACATCTCGCGCCTGCGCCGCAACCCCATGAAGGCCCTGTACCCCGTCACGACGAAGGCGCTCAAGGAGGACGGCGTCGAAGAGGACGACGTGGACGAGGCCAAGCTGGACCAGGCCCGGGACATGATCCGGTACATGTCCATCGTGTCGGCCCTCGAGCAGCAGGAGCACAAGGCGCGCAAGAAGAACAGCGGGCCCGCGCTGCTGGCCAGCCGCGTCGGGGTGATGGCCACGCGCCGCCGGCACTACCAGCGCCTC
>GQ325658
ATGCCCGCTGGTGGCGGTCTTTGGCGCGGGCCCCGCGGGCATCGGCCCGGGCACCACGGCGGTGCTGGCCTCGGACGTCTTTGGCCTGCTCCACACCACGCTGCAGCTGCGCGGGGCGCCGTCGCGCTAGCGCTGCTGCTGCTGGCGCTCGCCGCGGCCCCGCCGTGCGGCGCGGCGGCCGTGACGCGGGCCGCCTCGGCCTCGCCGACGCCCGTCCCGGGCAGCCCCGGCCTCACCCCCAACGACGTCTCCGCGGAGGCGTCCCTCGAGGAGATCGAGGCGTTCACCCCCGGCCCCTCGGAGGCCCCCGACGGCGAGTACGGCGACCTGGACGCGCGCACGGCCGTGCGCGCGGCCGCGACCGAGCGGGACCGCTTCTACGTCTGCCCGCCGCCGTCCGGCTCCACGGTGGTGCGCCTGGAGCCCGAGCGGGCCTGCCCCGAGTACTCGCAGGGGCGCAACTTCACGGAGGGGATCGCCGTGCTCTTCAAGGAGAACATCGCCCCGCACAAGTTCAAGGCCCACATCTACTACAAGAACGTCATCGTCACGACCGTGTGGTCCGGGAGCACGTACGCGGCCATCACGAACCGCTTCACGGACCGCGTGCCCGTCCCCGTGCAGGAGATCACGGACGTGATCGACCGCCGCGGCAAGTGCGTCTCCAAGGCCGAGTACGTGCGCAACAACCACAAGGTGACCGCCTTCGACCGCGACGAGAACCCCGTCGAGGTGGACCTGCGCCCCTCGCGCCTGAACGCGCTCGGCACCCGCGGCTGGCACACCACCAACGACACCCACACCAAGATCGGCGCCGCGGGCTTCTACCACACGGGCACCTCCGTCAACTGCATCGTCGAGGAGGTGGAGGCGCGCTCCGTGTACCCCTACGACTCCTTCGCCCTGTCCACGGGGGACATTGTGTACATGTCCCCCTTCTACGGCCTGCGCGAGGGGGCCCACGGGGAGCACATCGGCTACGCGCCCGGGCGCTTCCAGCAGGTGGAGCACTACTACCCCATCGACCTGGACTCGCGCCTCCGCGCCTCCGAGAGCGTGACGCGCAACTTTCTGCGCACGCCGCACTTCACGGTGGCCTGGGACTGGGCCCCCAAGACGCGGCGCGTGTGCAGCCTGGCCAAGTGGCGCGAGGCCGAGGAGATGATCCGCGACGAGACGCGCGACGGGTCCTTCCGCTTCACGCCGCGGGCCCTGGGCGCCTCCTTCGTCAGCGACGTCACGCAGCTGGACCTGCAGCGCGTGCACCTGGGCGACTGCGTCCTCCGCGAGGCCTCGGAGGCCATCGACGCCATCTACCAGCGGCGCTACAACAACACGCACGTGCTGGCCGGCGACAGGCCCGAGGTGTACCTCGCCCGCGGGGGCTTCGTGGTGGCCTTCCGCCCGCTGATCTCGAACGAGCTGGCGCAGCTGTACGCGCGCGAGCTCGAGCGCCTCGGCCTCGCCGGCGTCGTGGGCCCCGCGTCCCCCGCGGCGGCCCGGCGGGCCCGGCGCGCCGCCGGGCAGGCGGGGACGCCCGAGCCGCCGGCCGTCAACGGCACGGGGCACCTGCGCATCACCACGGGCTCGGCGGAGTTTGCGCGCCTGCAGTTCACCTACGACCACATCCAGGCGCACGTGAACGACACGCTGGGCCGCATCGCGGCCGCCTGGTGCGAGCTGCAGAACAAGGACCGCACCCTGTGGAGCGAGATGTCGCGCCTGAACCCCAGCGCCGTGGCCACGGCCGCGCTCGGCCAGCGCGTCTNGGCGCGCATGCTNGGCGACGTGATGGCCATCTCGCGGTGCGTGGAGGTGCGCGGCGGCGTGTACGTGCAGAACTCCATGCGCGTGCCCGGCGAGCGCGGCACGTGCTACAGCCGCCCGCTGGTCACCTTCGAGCACAACGGCACGGGCGTGATCGAGGGCCAGCTCGGCGACGACAACGAGCTCCTCATCTCGCGCGACCTCATCGAGCCCTGCACCGGCAACCACCGGCGCTACTTTAAGCTGGGGAGCGGGTACGTGTACTACGAGGACTACAGCTACGTGCGCATGGTGGAGGTGCCCGAGACGATCAGCACGCGGGTGACCCTGAACCTGACGCTGCTGGAGGACCGCGAGTTCCTGCCCCTCGAGGTGTACACGCGCGAGGAGCTCGCCGACACGGGCCTCCTGGACTACAGCGAGATCCAGCGCCGCAACCAGCTGCACGCGCTCAAGTTCTACGACATCGACCGCGTGGTCAAGGTGGACCACAACGTGGTGCTGCTGCGCGGCATCGCCAACTTCTTCCAGGGCCTCGGCGACGTGGGCGCCGCCGTCGGCAAGGTGGTCCTGGGCGCCACGGGGGCCGTGATCTCGGCCGTCGGCGGCATGGTGTCCTTCCTGTCCAACCCCTTCGGGGCGCTCGCCATCGGGCTGCTGGTGCTGGCCGGCCTGGTCGCGGCCTTCCTGGCCTACCGGCACATCTCGCGCCTGCGTCGCAACCCCATGAAGGCCCTGTACCCCGTCACGACGAAGACGCTCAAGGAGGACGGCGTCGACGAGGGCGACGTGGACGAGGCCAAGCTGGACCAGGCCCGGGACATGATCCGGTACATGTCCATCGTGTCGGCCCTCGAGCAGCAGGAGCACAAGGCGCGCAAGAAGAACAGCGGGCCCGCGCTGCTGGCCAGCCGCGTCGGGGCGATGGCCACGCGCCGCCGGCACTACCAGCGCCTCGAGAGCGAGGACCCCGACGCCCTGTAG
>KF711983
GGCCCATCGGAGGCCCCCGACGGCGAGTACGGCGACCTGGACGCGCGCACGGCCGTGCGCGCGGCCGCGACCGAGCGGGACCGCTTCTACGTCTGCCCGCCGCCGTCCGGCTCCACGGTGGTGCGCCTGGAGCCCGAGCAGGCCTGCCCCGAGTACTCGCAGGGGCGCAACTTCACGGAGGGGATCGCCGTGCTCTTCAAGGAGAACATCGCCCCGCACAAGTTCAAGGCCCACATCTACTACAAGAACGTCATCGTCACGACCGTGTGGTCCGGGAGCACGTACGCGGCCATCACGAACCGCTTCACGGACCGCGTGCCCGTCCCCGTGCAGGAGATCACGGACGTGATCGACCGCCGCGGCAAGTGCGTCTCCAAGGCCGAGTACGTGCGCAACAACCACAAGGTGACCGCCTTCGACCGCGATGAGAACCCCGTCGAGGTGGACCTGCGCCCCTCGCGCCTGAACGCGCTCGGCACCCGCGGCTGGCACACCACCAACGACACCTACACCAAGATCGGCGCCGCGGGCTTCTACCACACGGGCACCTCCGTCAACTGCATCGTCGAGGAGGTGGAGGCGCGCTCCGTGTACCCCTACGACTCCTTCGCCCTGTCCACGGGGGACATCGTGTACATGTCCCCCTTCTACGGCCTGCGCGAGGGGGCCCACGGGGAGCACATCGGCTACGCGCCCGGGCGCTTCCAGCAGGTGGAGCACTACTACCCCATCGACCTGGACTCGCGCCTCCGCGCCTCCGAGAGCGTGACGCGCAACTTTCTGCGCACGCCGCACTTCACGGTGGCCTGGGACTGGGCCCCAAAGACGCGGCGCGTGTGCAGCCTGGCCAAGTGGCGCGAGGCCGAGGAGATGATCCGCGACGAGACGCGCGACGGGTCCTTCCGCTTCACGTCGCGGGCCCTGGGCGCCTCCTTCGTCAGCGACGTCACGCAGCTCGACCTGCAGCGCGTGCACCTGGGCGACTGCGTCCTCCGCGAGGCCTCGGAGGCCATCGACGCCATCTACCGGCGGCGCTACAACAACACGCACGTGCTGGCCGGCGACAAGCCCGAGGTGTACCTCGCCCGCGGGGGCTTCGTGGTGGCCTTCCGCCCGCTGATCTCGAACGAGCTGGCGCAGCTGTACGCGCGCGAGCTCGAGCGCCTCGGCCTCGCCGGCGTCGTGGGCCCCGCGTCCCCCGCGGCCGCCCGTCGGGCCCGGCGCTCCCCCGGCCCGGCGGGGACGCCCGAGCCGCCGGCCGTCAACGGCACGGGGCACCTGCGCATCACCACGGGCTCGGCCGAGTTTGCGCGCCTGCAGTTCACCTACGACCACATCCAGGCGCACGTGAACGACATGCTGAGCCGCATCGCGGCCGCCTGGTGCGAGCTGCAGAACAAGGACCGCACCCTGTGGGGCGAGATGTCGCGCCTGAACCCCAGCGCCGTGGCCACGGCCGCGCTGGGCCAGCGCGTCTCGGCGCGCATGCTCGGCGACGTGATGGCCATCTCGCGGTGCGTGGAGGTGCGCGGCGGCGTGTACGTGCAGAACTCCATGCGCGTGCCCGGCGAGCGCGGCACGTGCTACAGCCGCCCGCTGGTGACCTTCGAGCACAACGGCACGGGCGTGATCGAGGGCCAGCTCGGCGACGACAACGAGCTCCTCATCTCGCGCGACCTCATCGAGCCCTGCACCGGCAACCACCGGCGCTACTTTAAGCTGGGCGGCGGGTACGTGTACTACGAGGACTACAGCTACGTGCGCATGGTGGAGGTGCCCGAGACGATCAGCACGCGGGTGACCCTGAACCTGACGCTGCTCGAGGACCGCGAGTTCCTGCCCCTCGAGGTGTACACGCGCGAGGAGCTCGCCGACACGGGCCTCCTGGACTACAGCGAGATCCAGCGCCGCAACCAGCTGCACGCGCTCAAGTTCTAC
>KJ526432
ATGCCCGCTGGTGGCGGTCTTTGGCGCGGGCCCCGCGGGCATCGGCCCGGGCACCACGGCGGTGCTGGCCTCGGACGTCTTTGGCCTGCTCCACACCACGCTGCAGCTGCGCGGGGCGCCGTCGCGCTAGCGCTGCTGCTGCTGGCGCTCGCCGCGACCCCGACGTGCGGCGCGGCGGCCGTGACGCGGGCCGCCTCGGCCTCGCCCGCGCCCGGGACGGGCGCCACCCCAGACGGCTTCTCCACGGAGGAGTCCCTCGAGGAGATCGACGGGGCCGTCTCCCCCGGCCCCTCGGACGCCCCCGACGGCGAGTACGGCGACCTGGACGCGCGCACGGCCGTGCGCGCGGCCGCGACCGAGCGGGACCGCTTCTACGTCTGCCCGCCGCCGTCCGGCTCCACGGTGGTGCGCCTGGAGCCCGAGCAGGCCTGCCCCGAGTACTCGCAGGGGCGCAACTTCACGGAGGGGATCGCCGTGCTCTTCAAGGAGAACATCGCCCCGCACAAGTTCAAGGCCCACATCTACTACAAGAACGTCATCGTCACGACCGTGTGGTCCGGGAGCACGTACGCGGCCATCACGAACCGCTTCACGGACCGCGTGCCCGTCCCCGTGCAGGAGATCACGGACGTGATCGACCGCCGCGGCAAGTGCGTCTCCAAGGCCGAGTACGTGCGCAACAACCACAAGGTGACCGCCTTCGACCGCGACGAGAACCCCGTCGAGGTGGACCTGCGCCCCTCGCGCCTGAACGCGCTCGGCACCCGCGGCTGGCACACCACCAACGACACCTACACCAAGATCGGCGCCGCGGGCTTCTACCACACGGGCACCTCCGTCAACTGCATCGTCGAGGAGGTGGAGGCGCGCTCCGTGTACCCCTACGACTCCTTCGCCCTGTCCACGGGGGACATCGTGTACATGTCCCCCTTCTACGGCCTGCGCGAGGGGGCCCACGGGGAGCACATCGGCTACGCGCCCGGGCGCTTCCAGCAGGTGGAGCACTACTACCCCATCGACCTGGACTCGCGCCTCCGCGCCTCCGAGAGCGTGACGCGCAACTTTCTGCGCACGCCGCACTTCACGGTGGCCTGGGACTGGGCCCCCAAGACGCGGCGCGTGTGCAGCCTGGCCAAGTGGCGCGAGGCCGAGGAGATGATCCGCGACGAGACGCGCGACGGGTCCTTCCGCTTCACGTCGCGGGCCCTGGGCGCCTCCTTCGTCAGCGACGTCACGCAGCTCGACCTGCAGCGCGTGCACCTGGGCGACTGCGTCCTCCGCGAGGCCTCGGAGGCCATCGACGCCATCTACCGGCGGCGCTACAACAACACGCACGTGCTGGCCGGCGACAGGCCCGAGGTGTACCTCGCCCGCGGGGGCTTCGTGGTGGCCTTCCGCCCGCTGATCTCGAACGAGCTGGCGCAGCTGTACGCGCGCGAGCTCGAGCGCCTCGGCCTCGCCGGCGTCGTGGGCCCCGCGTCCCCCGCGGCCGCCCGTCGGGCCCGGCGCTCCCCCGGCCCGGCGGGGACGCCCGAGCCGCCGGCCGTCAACGGCACGGGGCACCTGCGCATCACCACGGGCTCGGCCGAGTTTGCGCGCCTGCAGTTCACCTACGACCACATCCAGGCGCACGTGAACGACATGCTGAGCCGCATCGCGGCCGCCTGGTGCGAGCTGCATAACAAGGACCGCACCCTGTGGGGCGAGATGTCGCGCCTGAACCCCAGCGCCGTGGCCACGGCCGCGCTGGGCCAGCGCGTCTCGGCGCGCATGCTCGGCGACGTGATGGCCATCTCGCGGTGCGTGGAGGTGCGCGGCGGCGTGTACGTGCAGAACTCCATGCGCGTGCCCGGCGAGCGCGGCACGTGCTACAGCCGCCCGCTGGTGACCTTCGAGCACAACGGCACGGGCGTGATCGAGGGCCAGCTCGGCGACGACAACGAGCTCCTCATCTCGCGCGACCTCATCGAGCCCTGCACCGGCAACCACCGGCGCTACTTTAAGCTGGGCGGCGGGTACGTGTACTACGAGGACTACAGCTACGTGCGCATGGTGGAGGTGCCCGAGACGATCAGCACGCGGGTGACCCTGAACCTGACGCTGCTCGAGGACCGCGAGTTCCTGCCCCTCGAGGTGTACACGCGCGAGGAGCTCGCCGACACGGGCCTCCTGGACTACAGCGAGATCCAGCGCCGCAACCAGCTGCACACGCTCAAGTTCTACGACATTGACCGCGTGGTCAAGGTGGACCACAACGTGGTGCTGCTGCGCGGCATCGCCAACTTCTTCCAGGGCCTCGGCGACGTGGGCGCCGCCGTCGGCAAGGTGGTCCTGGGCGCCACGGGGGCCGTGATCTCGGCCGTCGGCGGCATGGTGTCCTTCCTGTCCAACCCCTTCGGGGCGCTCGCCATCGGGCTGCTGGTGCTGGCCGGCCTGGTCGCGGCCTTCCTGGCCTACCGGCACATCTCGCGCCTGCGCCGCAACCCCATGAAGGCCCTGTACCCCGTCACGACGAAGGCGCTCAAGGAGGACGGCGTCGAAGAGGACGACGTGGACGAGGCCAAGCTGGACCAGGCCCGGGACATGATCCGGTACATGTCCATCGTGTCGGCCCTCGAGCAGCAGGAGCACAAGGCGCGCAAGAAGAACAGCGGGCCCGCGCTGCTGGCCAGCCGCGTCGGGGTGATGGCCACGCGCCGCCGGCACTACCAGCGCCTCGAGAGCGAGGACCCCGACGCCCTGTAG
...................................
建樹流程

1.進(jìn)行多序列比對
軟件有:prank、mafft、muscle等。其中prank最準(zhǔn)確,但耗費的時間和計算機資源最多,所以一般用于序列少的數(shù)據(jù)(100條左右的序列)。mafft又比muscle快,適合在大數(shù)據(jù)量的比對中使用。
2.保守區(qū)的選取
Gblocks,輸入文件為比對過后的序列文件,能篩選出保守區(qū)。
3.尋找適合的model
使用Jmodel找出最適合的模型,用于后續(xù)建樹的使用,增加可靠性。
4.建樹
建樹軟件有非常多,一般主要用ML和貝葉斯方法,NJ比較適合相似的序列。最好能同時使用ML和貝葉斯兩種方法進(jìn)行建樹,然后對比它們結(jié)果。

上機操作
序列比對

上機使用muscle進(jìn)行多序列比對(有機會多嘗試幾種比對的方法,對比它們的比對結(jié)果)。

muscle 下載網(wǎng)址http://www.drive5.com/muscle/downloads.htm

commond

./muscle3.8.31_i86linux64 -in gB.fas -out gB_muscleOut.fas

結(jié)果
使用mega打開


image.png
保守區(qū)的選擇

使用Gblocks服務(wù)網(wǎng)站進(jìn)行保守區(qū)的篩選,也可以用本地版的Gblocks

http://molevol.cmima.csic.es/castresana/Gblocks_server.html

將muscle比對后的文件上傳至網(wǎng)頁。
因為實驗中的序列是cds序列,所以應(yīng)選擇codons選項,其他選項不選。
提交后會彈出來一個結(jié)果頁面:


image.png

等完全載入后,直接下載頁面最下方的輸出文件(result aligment)

尋找適合的model

先要將上一步得到的blocks序列文件(result aligment)轉(zhuǎn)化成phylips格式文件(使用jmodeltest)#因為忽然連不上服務(wù)器,沒法重新跑一次流程,就直接粘貼上次用的命令----記得重新跑一次

java -jar jModelTest.jar -d gB_out_muscle_gblocks.fas -getPhylip >gB_out_muscle_gblocks.phy

開始進(jìn)行model的尋找

java -jar jModelTest.jar -BIC -d gB_out_muscle_gblocks.phy -f -g 4 -i -o gB_out_muscle_gblocks.fas.bic -s 203 -S BEST -tr 50

-s 203表示在203個model(即全部的model)中尋找,如果使用默認(rèn)值可能有些model會被忽略。

閱讀輸出文件最后的部分,找出最優(yōu)模型

tail gB_out_-_gblocks.fas.bic
image.png

此最優(yōu)模型為 TIM1+I+G 這些需要作為參數(shù)輸入phyml(本實驗使用的建樹方法)


image.png

有時需要進(jìn)行參數(shù)的換算,可以參照表格


b90e009a-56c0-4b48-ad3c-230ce7da3a29.png

所以最佳參數(shù)為 -m 012230 -a 0.98 -v 0.31

進(jìn)行進(jìn)化樹的構(gòu)建

軟件的安裝(這邊使用的是mpi版的)

tar -zvxf phyml-20120412.tar.gz
cd phyml-20120412
mkdir phyml_1
./configure --prefix=/home/wangjl/tree_test/phyml-20120412/phyml_1/ --enable-mpi
make

進(jìn)化樹的構(gòu)建:

mpirun -np 50 phyml-mpi -i gB_out_-_gblocks.fas.phy -d nt -b 1000 -s BEST -o tlr  -m 012230 -a 0.98 -v 0.31 --no_memory_check  #有一個 -m 參數(shù),需要輸入jmodeltest得到的最優(yōu)模型,具體要研究·jmodeltest和參數(shù)說明。-b表示進(jìn)行1000bootstrap

結(jié)果可以用mega或itol查看。
進(jìn)化樹的美化:建議使用itol(http://itol.embl.de/)(通過寫配置文件可以實現(xiàn)比較炫的美化效果)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容