在我們的工作中,常常會有將一段未知或已知核苷酸序列(DNA/RNA)翻譯成氨基酸序列的需求。如果編程基礎過硬的話,自己寫個代碼翻譯三聯(lián)密碼子,正義鏈和反義鏈各三個移碼閱讀框。但是我們更多的時候,這種小的需求,根本不需要去寫個腳本來解決,有很多在線的工具能夠幫我們做到這一點。在這里舉例說明。
Tool 1: expasy翻譯組件
Expasy是一個包含很多工具的web tools集合,但我們這次用到的只是他的其中一個功能,即核酸序列翻譯功能。點開網(wǎng)頁https://web.expasy.org/translate/, 界面如下:

右邊可以選擇輸出文件的格式,以及從哪個鏈上尋找翻譯框,在不知道蛋白編碼方向的情況下,最好是全部選上。以水稻條紋病毒(RSV)的某個分離物的CP的基因序列為例(NCBI accession number: AY286101.1)。
當我們將序列粘貼到框里之后,點擊translate按鈕,就會得到如下輸出:
會輸出6個移碼閱讀框,然后結果就是3'-5'翻譯的那一條結果。
expasy可視化信息相對直接,但是它有一個壞處,即不支持批量提交。如果我們有成百上千條序列,expasy的功能就顯得比較不夠用了。接下來我們介紹另外一個支持多條序列同時翻譯的工具。
Too2 1: emboss下的transeq
EMBOSS是由EBI開發(fā)的一個工具,既有本地版,也有在線版。
點開https://www.ebi.ac.uk/Tools/st/emboss_transeq/, 會看到如下界面:

可以直接粘貼或者上傳符合EMBOSS transeq支持的文件格式,EMBOSS支持的格式可以參考emboss支持格式鏈接,常見的raw sequence或者fasta格式的文件肯定格式可以支持的。
可以選擇All six frame, 也可以選擇某一條鏈的某一起始位點的移碼框,也可以選擇codon table, 然后點擊submit。任務就會被提交到后臺上,親測速度還是非??斓?。
最后輸出結果如下:

最后對每個序列都是輸出6個fasta, 對應6種編碼框,然后可以將結果下載下來之后,移除錯誤的編碼序列。將保留下來的序列去做進化分析或者其他后續(xù)處理。
后記:工具很多,選擇自己習慣的就好。
Done.