多序列比對(duì)及相關(guān)工具

參考:https://www.bilibili.com/video/BV13t411372E?p=50

多序列比對(duì),multiple alignment,是對(duì)兩條以上的生物序列進(jìn)行全局比對(duì)。

多序列比對(duì)的主要用途

1.確認(rèn):一個(gè)未知的序列是否屬于某個(gè)家族;

2.建立:系統(tǒng)發(fā)生樹(shù),查看物種間或者序列間的關(guān)系;

3.模式識(shí)別:一些特別保守的序列片段往往對(duì)應(yīng)重要的功能區(qū)域,通過(guò)多序列比對(duì),可以找到這些保守片段;

4.已知推未知:把已知有特殊功能的序列片段通過(guò)多序列比對(duì)做成模型,然后根據(jù)該模型推測(cè)未知的序列片段是否也具有該功能;

5.其他:預(yù)測(cè)蛋白質(zhì)/RNA 二級(jí)結(jié)構(gòu)等等。

多序列比對(duì)工具

目前市面上的多序列比對(duì)工具都不是很完美,因?yàn)槎嘈蛄斜葘?duì)的復(fù)雜度和雙序列比對(duì)不是一個(gè)數(shù)量級(jí)的。你可以想象二維打分矩陣,但n維,是不是就太復(fù)雜了?

因此多序列比對(duì)算法,犧牲了準(zhǔn)確度,以提升速度。

多序列比對(duì)注意事項(xiàng)

對(duì)序列的要求

  1. 序列的數(shù)量不能太多。一般10-15條,最好別超過(guò)50條。
  2. 序列的親緣關(guān)系不能太遠(yuǎn)。兩兩之間序列相似度低于30%的一組序列,進(jìn)行多序列比對(duì)的結(jié)果沒(méi)有意義,甚至無(wú)法進(jìn)行比對(duì)。
  3. 序列的親緣關(guān)系不能太近。兩兩之間序列相似度高于90%的一組序列,進(jìn)行再多的比對(duì)也是等于比對(duì)一條。
  4. 序列長(zhǎng)度不能太短。多序列比對(duì)只支持差不多長(zhǎng)的序列。
  5. 序列不能包含重復(fù)域。如果序列中包含過(guò)多的重復(fù)片段,序列比對(duì)的程序可能會(huì)報(bào)錯(cuò)。

對(duì)序列命名的要求

  1. 名字里不能有空格,可以用“_”代替空格。
  2. 不要用特殊字符,比如中文、@、#、¥、%等等。
  3. 名字的長(zhǎng)度不要超過(guò)15個(gè)字符。
  4. 一組序列里,不要有重名的序列。
  5. 如果不按上述幾點(diǎn)命名,多序列比對(duì)工具會(huì)自動(dòng)地修改序列,以符合規(guī)范。

多序列比對(duì)工具

EMBL 的網(wǎng)頁(yè)工具

embl 真是提供了太多的工具以供使用。


cluster omega

  • 這熟悉的界面~ 我們接著用參考序列


  • 我們直接使用默認(rèn)值即可


  • submit 就好

  • 比對(duì)結(jié)果



    ps:一般來(lái)說(shuō),設(shè)置的aligned 排列規(guī)則可能會(huì)導(dǎo)致輸出結(jié)果的序列順序發(fā)生改變。

  • 顯示序列顏色



    紅色表示為保守序列

  • 同樣也有對(duì)應(yīng)符號(hào)的特殊含義


通過(guò)解讀這些符號(hào),我們可以了解保守區(qū)域的位置——一般來(lái)說(shuō)是*: 比較密集的地方。

  • 查看結(jié)果總結(jié)


了解序列間關(guān)系

  • Percent Identity Matrix


第一列和第一行是一樣的。其實(shí)我們只要看對(duì)角線一側(cè)的結(jié)果就可以了,因?yàn)樗鼈兌际且粯禹樞驅(qū)Ρ鹊模Y(jié)果也是對(duì)稱的。
這個(gè)矩陣可以告訴我們所有矩陣兩兩之間的序列一致度。

  • Phylogenetic Tree 系統(tǒng)發(fā)生樹(shù)


其實(shí)這個(gè)樹(shù)本名應(yīng)該叫g(shù)uide tree,只是embl 在制作時(shí),將結(jié)果發(fā)送給了做系統(tǒng)發(fā)生樹(shù)的軟件,所以形成了相同的構(gòu)造。(并沒(méi)有進(jìn)行距離校正)因而不同作為系統(tǒng)發(fā)生樹(shù)。
ps:現(xiàn)在的版本已經(jīng)將guide tree 與Phylogenetic Tree 分隔開(kāi)了。


Tcoffee

和clustal 系列算法上類似,但準(zhǔn)確度上比clustal 系列略高,并且計(jì)算耗時(shí)上也略高。

另外,tcoffee 有很多變形,也意味著它有更多的功能。許多網(wǎng)站都提供tcoffee 的使用工具。


http://tcoffee.crg.cat/

  • Tcoffee 對(duì)于不同類型的序列,也提供了更進(jìn)一步的比對(duì)工具。(其實(shí)是更多種類的咖啡)

Expresso 為序列加入結(jié)構(gòu)信息,使結(jié)果更加準(zhǔn)確。
M-coffee 把多個(gè)序列比對(duì)結(jié)果整合一個(gè)。
PSI/TM-coffee 專為穿膜蛋白打造。
PSI-coffee 專為遠(yuǎn)源序列打造。


expresso,蛋白質(zhì)多序列比對(duì)


繼續(xù)使用網(wǎng)站的示例序列。

  • 可以通過(guò)各種方式給入結(jié)構(gòu)信息

如果有現(xiàn)成的結(jié)構(gòu)文件(PDB),也可以直接上傳。

也可以使用模版或通過(guò)系統(tǒng)自動(dòng)查找


ps:一般計(jì)算需要比較久的時(shí)間,因此最好留個(gè)郵箱。


從結(jié)果來(lái)看,通過(guò)顏色反映對(duì)比結(jié)果的好壞。越好越紅,越藍(lán)越壞

而對(duì)比單純地用T-coffee的話,expresso 也能給出更為精準(zhǔn)的結(jié)果。


多序列比對(duì)保存格式

無(wú)論是cluster omega 還是tcoffee ,都提供了多種序列比對(duì)的保存格式。


選擇合適的保存格式

多序列比對(duì)結(jié)果的編輯工具

Jalview

http://www.jalview.org/

在embl 的Multiple Sequence Alignment工具下,result 中也提供了jalview,可以快速啟動(dòng)。但需要注意的是,但這個(gè)在線版本功能不全。

軟件版本的jalview 提供了更為全面的功能,且關(guān)聯(lián)了非常多的數(shù)據(jù)庫(kù)。


jalview 的軟件界面

可以非常清晰地看到,jalview 有很多的功能。包括彩色顯示,以及蛋白質(zhì)結(jié)構(gòu),系統(tǒng)發(fā)生樹(shù)等。



我們可以導(dǎo)入通過(guò)clustal omega 形成的.clustal 文件(多序列比對(duì)的結(jié)果)。

保守區(qū)、質(zhì)量區(qū)、共有序列(所有序列出現(xiàn)頻率最高的字母,如果是兩個(gè)或兩個(gè)以上字母,則顯示+)


上色


color 下有很多種顏色供我們選擇。
percentage identity 可以和 conservation 下的結(jié)果相匹配,會(huì)用深淺不同的藍(lán)色表示。

通過(guò)調(diào)整by conservation,調(diào)整顏色出現(xiàn)的閾值。


  • 還可以根據(jù)clustal 結(jié)果上色,和clustal 比對(duì)網(wǎng)頁(yè)中的顏色結(jié)果是相同的。


表格中表示了不同氨基酸有不同的顏色方案。

編輯序列

調(diào)整界面顯示及圖片導(dǎo)出

通過(guò)-format-wrap ,實(shí)現(xiàn)換行。


如果覺(jué)得字體太小,還可以通過(guò)format-font,進(jìn)行調(diào)整。

如果我們只想要序列比對(duì)部分,不想要柱狀圖的注釋??梢酝ㄟ^(guò)view-show annotation 取消。


我們還可以通過(guò) calculate-sort 給比對(duì)中的序列排序。


還可以通過(guò) calculate-pairwise alignment 為它們做雙序列比對(duì)。

還可以通過(guò)選中不同的序列,通過(guò) calculate-calculate tree 為它們做系統(tǒng)進(jìn)化樹(shù)。


還可以通過(guò)web service 為選中的某個(gè)序列做蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)。

弄好了一切,那就把圖片導(dǎo)出來(lái)給大伙看看吧!


其他多序列比對(duì)美化工具

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容