[ZT] 常用在線序列比對工具

文章來源:企鵝號 - 卡嘿喲

從早期序列比對工具Needleman-Wunsch、Smith-Waterman到后來的Clustal算法,以及近幾年的Muscle、MAFFT序列比對算法。算法在向更快、更精確、能處理更多數(shù)據(jù)這些方向進行緩慢而有力的發(fā)展。常用的在線序列比對工具主要由EMBL-EBI提供,包括但不限于Needle, Water, Clustal Omega, Muscle, Mafft, T-coffee等,以及NCBI提供的blast2seq工具;常用的序列相似性搜索工具有NCBI提供的BLAST、UCSC提供的BLAT等。EMBL-EBI與NCBI同時期也開發(fā)了一套序列相似性搜索工具FASTA,然后最終沒能流行起來。BLAST一家獨大,BLAT依賴UCSC占據(jù)一點小市場,F(xiàn)ASTA的親爹同時提供了FASTA及BLAST服務,可能現(xiàn)在說FASTA人們只會想到FASTA文件格式吧。EMBL-EBI提供大量的對比工具在線服務,并不代表其擁有這些工具的所有權。

按工具功能大致可以分為3類:配對序列比對工具多序列比對工具以及序列相似性搜索工具

image

配對序列比對是用來研究兩條序列(核酸序列或者蛋白序列)之間功能、結構或者進化關系。

多序列比對工具當然也支持配對序列比對,不過更多的是用來比對3條及以上序列,研究序列之間是否同源以及序列間的進化關系。

序列相似性搜索工具主要是在一個序列數(shù)據(jù)庫中查找一條序列,找出與查詢序列最相似的序列。

配對序列比對工具

工具集網(wǎng)址:

https://www.ebi.ac.uk/Tools/psa/

這些可能是史前比對工具了,現(xiàn)在估計沒有什么人在用了,可能也沒人聽過還有這樣的工具存在。但是他大爺畢竟是他大爺,如果想比對兩條序列全局情況,Needle仍是不錯的選擇,至于Smith-Waterman算法,在許多二代比對算法里仍可見,比如bwa-sw算法,Minimap2計算overlap時使用的也是Smith-Waterman算法;Smith-Waterman也擁有CUDA版本程序。

Needle比對工具

以Needle工具為例進行一下簡單的演示,其提供了核酸及蛋白比對兩個版本,比對不同類型的序列需要選擇不同的工具。Needle是全局比對工具,將兩條序列全部內部進行比對并展示。

1. 打開Needle核酸比對工具頁面

https://www.ebi.ac.uk/Tools/psa/emboss_needle/nucleotide.html

2. 輸入兩條需要比對的序列

一個文本框里輸入一條FASTA記錄,其他參數(shù)不需要調整。

image

3. 查看結果

Needle的結果看起來是非常友好的,類似于NCBI BLAST顯示結果,

image

多序列比對工具

工具集網(wǎng)址:

https://www.ebi.ac.uk/Tools/msa/

該主頁提供了多款多序列比對工具,其中Clustal Omega結果形式是全局比對形式,但是算法還是局部比對算法,不建議在分子進化樹分析過程使用Clustal相關程序,因為其速度及準確度均遜色于下述的MAFFT及MUSCLE。

下表列出了常用的多序列比對工具,在平時學習或者工作中建議使用MAFFT或者MUSCLE進行多序列比對。

MAFFT比對工具

MAFFT是2002年開發(fā)的一款快速的局部/全局多序列比對工具,與之相對的是2004年開發(fā)的MUSCLE多序列比對工具,在網(wǎng)頁使用過程中,兩者差異不明顯,但是MUSCLE在比對數(shù)百條、數(shù)千條序列時,速度較慢,這時候使用MAFFT效果會好一點。

1. 打開MAFFT主頁

https://www.ebi.ac.uk/Tools/msa/mafft/

image

2. 輸入自己想要進行比對的多序列

支持2條以上序列比對,目前EMBL-EBI提供的網(wǎng)頁版本MAFFT最大支持500條序列且文件大小不超過1MB(差不多1,000,000bp的堿基)。如果自己提交的文件較大,可以在提交時勾選Be notified by email。這樣在比對完成時,EMBL-EBI會郵件通知你比對結果。

image

3. 查看結果

提交任務,過一段時間后就可以查看到比對結果了。其中Phylogenetic Tree可以查看分子進化樹。

image

不同序列比對工具對比

其他工具使用方式與MAFFT一致,相對于ClustalW/Clustal Omega,MAFFT及MUSCLE比對結果無計數(shù)。但是MAFFT及MUSCLE在處理INDEL時,效果比ClustalW/Clustal Omega要好。

image

相同兩條序列不同軟件比對結果

可以很明顯的看出各種工具對INDEL的處理,這主要是不同工具使用算法不同有關。Clustal,Water及blast2seq,在遇到Gap及Gap持續(xù)延長時,比對分值線性下降,而其他幾種算法在遇到Gap及Gap持續(xù)延長時,比對分值會下降但不會低于0,不會線性下降。

序列相似性搜索工具

工具集網(wǎng)址:

https://www.ebi.ac.uk/Tools/sss

EMBL-EBI提供了FASTA及BLAST兩款序列相似性搜索工具,不過序列相似性工具還是使用NCBI的BLAST以及UCSC的BLAT比較好。

NCBI BLAST

BLAST是目前最常用的生信工具之一,NCBI圍繞BLAST開發(fā)了大量的周邊工具,比如引物設計及特異性驗證工具Primer-BLAST。

1.打開BLAST主頁

https://blast.ncbi.nlm.nih.gov/Blast.cgi

其提供了4款BLAST子工具,常用的是核酸BLAST以及蛋白BLAST,點擊核酸BLAST進入工具內部。

2. 選擇適合的參數(shù)進行搜索

image

3. 搜索結果查看

有疑問可以點擊整個頁面右上角的HELP,進行個人自助。

image

4. 圖形化瀏覽比對結果

這里又可以使用NCBI強大的基因組瀏覽功能了,可以添加自己想要的track進行數(shù)據(jù)關聯(lián)展示,可惜好多人不太喜歡這個功能。

image

UCSC BLAT

1.打開BLAT主頁

https://genome.ucsc.edu/cgi-bin/hgBlat

2. 選擇合適參數(shù)進行序列搜索

image

3. 搜索結果查看

詳細結果支持兩種查看方式:基因組瀏覽器以及文本形式。基因組瀏覽器形式可以查看全局比對情況,以及匹配區(qū)域在基因組中的位置、注釋等情況,文本形式可以詳細的查看比對結果。

4. 基因組瀏覽器查看比對結果

image

5. 文本形式比對結果

image

BLAT更多體現(xiàn)的是一個定位功能,將查詢序列定位到目標基因組上,而BLAST更加的是搜索功能,從序列數(shù)據(jù)庫中搜索出與查詢序列接近的目標序列。

總結:

對于鏈相反的序列比對建議使用blast2seq;

對于序列相似,想要查看序列全局比對的建議使用needle及MAFFT;

對于多條序列比對,建議使用MAFFTT;

實在特別想要Clustal計數(shù)形式結果,建議使用Clustal Omega或者Needle;

想做多條序列分子進化樹,建議MAFFT;

未知序列搜索,想要研究序列功能可以使用blast,速度稍慢,但搜索庫數(shù)據(jù)量大;

某一物種未知序列定位,建議使用blat,速度快。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容