多序列比對(duì),multiple alignment,是對(duì)兩條以上的生物序列進(jìn)行全局比對(duì)。
多序列比對(duì)的主要用途
1.確認(rèn):一個(gè)未知的序列是否屬于某個(gè)家族;
2.建立:系統(tǒng)發(fā)生樹(shù),查看物種間或者序列間的關(guān)系;
3.模式識(shí)別:一些特別保守的序列片段往往對(duì)應(yīng)重要的功能區(qū)域,通過(guò)多序列比對(duì),可以找到這些保守片段;
4.已知推未知:把已知有特殊功能的序列片段通過(guò)多序列比對(duì)做成模型,然后根據(jù)該模型推測(cè)未知的序列片段是否也具有該功能;
5.其他:預(yù)測(cè)蛋白質(zhì)/RNA 二級(jí)結(jié)構(gòu)等等。
多序列比對(duì)工具
目前市面上的多序列比對(duì)工具都不是很完美,因?yàn)槎嘈蛄斜葘?duì)的復(fù)雜度和雙序列比對(duì)不是一個(gè)數(shù)量級(jí)的。你可以想象二維打分矩陣,但n維,是不是就太復(fù)雜了?
因此多序列比對(duì)算法,犧牲了準(zhǔn)確度,以提升速度。
多序列比對(duì)注意事項(xiàng)
對(duì)序列的要求
- 序列的數(shù)量不能太多。一般10-15條,最好別超過(guò)50條。
- 序列的親緣關(guān)系不能太遠(yuǎn)。兩兩之間序列相似度低于30%的一組序列,進(jìn)行多序列比對(duì)的結(jié)果沒(méi)有意義,甚至無(wú)法進(jìn)行比對(duì)。
- 序列的親緣關(guān)系不能太近。兩兩之間序列相似度高于90%的一組序列,進(jìn)行再多的比對(duì)也是等于比對(duì)一條。
- 序列長(zhǎng)度不能太短。多序列比對(duì)只支持差不多長(zhǎng)的序列。
- 序列不能包含重復(fù)域。如果序列中包含過(guò)多的重復(fù)片段,序列比對(duì)的程序可能會(huì)報(bào)錯(cuò)。
對(duì)序列命名的要求
- 名字里不能有空格,可以用“_”代替空格。
- 不要用特殊字符,比如中文、@、#、¥、%等等。
- 名字的長(zhǎng)度不要超過(guò)15個(gè)字符。
- 一組序列里,不要有重名的序列。
- 如果不按上述幾點(diǎn)命名,多序列比對(duì)工具會(huì)自動(dòng)地修改序列,以符合規(guī)范。
多序列比對(duì)工具

EMBL 的網(wǎng)頁(yè)工具
embl 真是提供了太多的工具以供使用。

cluster omega
-
這熟悉的界面~ 我們接著用參考序列
-
我們直接使用默認(rèn)值即可
submit 就好
-
比對(duì)結(jié)果
ps:一般來(lái)說(shuō),設(shè)置的aligned 排列規(guī)則可能會(huì)導(dǎo)致輸出結(jié)果的序列順序發(fā)生改變。
-
顯示序列顏色
紅色表示為保守序列
-
同樣也有對(duì)應(yīng)符號(hào)的特殊含義
通過(guò)解讀這些符號(hào),我們可以了解保守區(qū)域的位置——一般來(lái)說(shuō)是*與: 比較密集的地方。
-
查看結(jié)果總結(jié)
了解序列間關(guān)系
-
Percent Identity Matrix
第一列和第一行是一樣的。其實(shí)我們只要看對(duì)角線一側(cè)的結(jié)果就可以了,因?yàn)樗鼈兌际且粯禹樞驅(qū)Ρ鹊模Y(jié)果也是對(duì)稱的。
這個(gè)矩陣可以告訴我們所有矩陣兩兩之間的序列一致度。
-
Phylogenetic Tree 系統(tǒng)發(fā)生樹(shù)
其實(shí)這個(gè)樹(shù)本名應(yīng)該叫g(shù)uide tree,只是embl 在制作時(shí),將結(jié)果發(fā)送給了做系統(tǒng)發(fā)生樹(shù)的軟件,所以形成了相同的構(gòu)造。(并沒(méi)有進(jìn)行距離校正)因而不同作為系統(tǒng)發(fā)生樹(shù)。
ps:現(xiàn)在的版本已經(jīng)將guide tree 與Phylogenetic Tree 分隔開(kāi)了。

Tcoffee
和clustal 系列算法上類似,但準(zhǔn)確度上比clustal 系列略高,并且計(jì)算耗時(shí)上也略高。
另外,tcoffee 有很多變形,也意味著它有更多的功能。許多網(wǎng)站都提供tcoffee 的使用工具。

http://tcoffee.crg.cat/
- Tcoffee 對(duì)于不同類型的序列,也提供了更進(jìn)一步的比對(duì)工具。(其實(shí)是更多種類的咖啡)
Expresso 為序列加入結(jié)構(gòu)信息,使結(jié)果更加準(zhǔn)確。
M-coffee 把多個(gè)序列比對(duì)結(jié)果整合一個(gè)。
PSI/TM-coffee 專為穿膜蛋白打造。
PSI-coffee 專為遠(yuǎn)源序列打造。
expresso,蛋白質(zhì)多序列比對(duì)

繼續(xù)使用網(wǎng)站的示例序列。
- 可以通過(guò)各種方式給入結(jié)構(gòu)信息
如果有現(xiàn)成的結(jié)構(gòu)文件(PDB),也可以直接上傳。
也可以使用模版或通過(guò)系統(tǒng)自動(dòng)查找

ps:一般計(jì)算需要比較久的時(shí)間,因此最好留個(gè)郵箱。

從結(jié)果來(lái)看,通過(guò)顏色反映對(duì)比結(jié)果的好壞。越好越紅,越藍(lán)越壞。
而對(duì)比單純地用T-coffee的話,expresso 也能給出更為精準(zhǔn)的結(jié)果。

多序列比對(duì)保存格式
無(wú)論是cluster omega 還是tcoffee ,都提供了多種序列比對(duì)的保存格式。

選擇合適的保存格式

多序列比對(duì)結(jié)果的編輯工具
Jalview

在embl 的Multiple Sequence Alignment工具下,result 中也提供了jalview,可以快速啟動(dòng)。但需要注意的是,但這個(gè)在線版本功能不全。
軟件版本的jalview 提供了更為全面的功能,且關(guān)聯(lián)了非常多的數(shù)據(jù)庫(kù)。

jalview 的軟件界面
可以非常清晰地看到,jalview 有很多的功能。包括彩色顯示,以及蛋白質(zhì)結(jié)構(gòu),系統(tǒng)發(fā)生樹(shù)等。

我們可以導(dǎo)入通過(guò)clustal omega 形成的.clustal 文件(多序列比對(duì)的結(jié)果)。
保守區(qū)、質(zhì)量區(qū)、共有序列(所有序列出現(xiàn)頻率最高的字母,如果是兩個(gè)或兩個(gè)以上字母,則顯示+)

上色

color 下有很多種顏色供我們選擇。
percentage identity 可以和 conservation 下的結(jié)果相匹配,會(huì)用深淺不同的藍(lán)色表示。
通過(guò)調(diào)整by conservation,調(diào)整顏色出現(xiàn)的閾值。

-
還可以根據(jù)clustal 結(jié)果上色,和clustal 比對(duì)網(wǎng)頁(yè)中的顏色結(jié)果是相同的。
表格中表示了不同氨基酸有不同的顏色方案。
編輯序列

調(diào)整界面顯示及圖片導(dǎo)出
通過(guò)-format-wrap ,實(shí)現(xiàn)換行。

如果覺(jué)得字體太小,還可以通過(guò)format-font,進(jìn)行調(diào)整。
如果我們只想要序列比對(duì)部分,不想要柱狀圖的注釋??梢酝ㄟ^(guò)view-show annotation 取消。

我們還可以通過(guò) calculate-sort 給比對(duì)中的序列排序。

還可以通過(guò) calculate-pairwise alignment 為它們做雙序列比對(duì)。
還可以通過(guò)選中不同的序列,通過(guò) calculate-calculate tree 為它們做系統(tǒng)進(jìn)化樹(shù)。

還可以通過(guò)web service 為選中的某個(gè)序列做蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)。
弄好了一切,那就把圖片導(dǎo)出來(lái)給大伙看看吧!

其他多序列比對(duì)美化工具














