基因組測序技術的發(fā)展使得生物序列日益增多,從大量序列數(shù)據(jù)中挖掘有用的信息成為許多研究領域的重要手段,這就使得我們必須掌握一些序列處理的方法。其中,F(xiàn)ASTA文件是基因組最為常見的文件格式之一。然而,龐大的基因組數(shù)據(jù)讓FASTA文件的處理變得非常棘手,如多基因的串聯(lián)合并、序列的提取或刪除、序列ID檢索與替換等。因此,開發(fā)FASTA文件批量處理軟件工具在生物信息研究中顯得尤其重要。近些年,經過生信工作者的不懈努力,許多FASTA文件批量處理工具應運而生。熟悉和掌握這些工具的使用,可為廣大科研人員提供便捷。
FASTA文件處理工具主要分為兩類:Windows系統(tǒng)的界面化版本以及Linux系統(tǒng)的命令行版本。界面化版本的優(yōu)點就是操作方便,無需任何編程以及Linux系統(tǒng)管理能力,點點鼠標就可以完成分析。而命令行版本的優(yōu)點則是可以大批量并行計算,縮短分析時間,缺點就是需要編程以及Linux系統(tǒng)管理基礎。目前,界面化程序主要有TBtools以及FasParser;命令行版本主要包括seqmagick、seqkit、seqtk、fasta_utilities、FASTAX-toolkit、fastascripts以及Reseqtools等。下面就簡單地介紹幾款軟件,詳細使用方法可自行Google。

FasParser
- 提取及重命名fasta ID
- 統(tǒng)計fasta序列長度信息
- DNA翻譯為AA
- 鑒定指定支系特異氨基酸或核苷酸位點
- 提取4倍簡并位點、第1、2、3位密碼子
- 根據(jù)ID串聯(lián)序列
- 根據(jù)ID或者關鍵詞提取序列
- 過濾序列
TBtools

- 根據(jù)GFF/GTF以及基因組文件獲取CDS、protein序列
- fasta序列與區(qū)段提取
- fasta序列過濾
- fasta序列信息統(tǒng)計
- 序列反向互補
- ID簡化
- ID重命名
- ID增加前綴
- fasta文件合并與分割
- 獲取基因組最長CDS
- 序列模式定位
命令行工具

Seqkit
01. Sequence and subsequence
- seq 轉換序列(反向、互補、提取ID)
- subseq 按區(qū)域/GTF/BED獲取子序列,包括側翼序列
- sliding 序列滑窗
- stats 序列統(tǒng)計
- fadix 建立索引,提取序列
02. Format conversion
- fx2tab 將fasta轉換為表格形式,統(tǒng)計長度以及GC含量
- translate 將DNA翻譯為蛋白
03. Searching
- grep 通過id/name/sequence/sequence motifs搜索序列,允許不匹配
- locate 定位子序列/基序,允許不匹配
- fish 使用局部對齊在較大序列中尋找短序列
04. Set operations
- rmdup 通過id/name/sequence刪除重復序列
- common 通過id/name/sequence查找多個文件的公共序列
- split 按id/seq區(qū)域/大小/部分將序列拆分
05. Edit
- replace 通過正則匹配替換序列名
- rename 重命名重復的id
- concat 串聯(lián)序列
- mutate 編輯序列(點突變、插入、刪除)
06. Ordering
- sort 排序