Win/Linux平臺批量處理FASTA文件的工具

基因組測序技術的發(fā)展使得生物序列日益增多,從大量序列數(shù)據(jù)中挖掘有用的信息成為許多研究領域的重要手段,這就使得我們必須掌握一些序列處理的方法。其中,F(xiàn)ASTA文件是基因組最為常見的文件格式之一。然而,龐大的基因組數(shù)據(jù)讓FASTA文件的處理變得非常棘手,如多基因的串聯(lián)合并、序列的提取或刪除、序列ID檢索與替換等。因此,開發(fā)FASTA文件批量處理軟件工具在生物信息研究中顯得尤其重要。近些年,經過生信工作者的不懈努力,許多FASTA文件批量處理工具應運而生。熟悉和掌握這些工具的使用,可為廣大科研人員提供便捷。

FASTA文件處理工具主要分為兩類:Windows系統(tǒng)的界面化版本以及Linux系統(tǒng)的命令行版本。界面化版本的優(yōu)點就是操作方便,無需任何編程以及Linux系統(tǒng)管理能力,點點鼠標就可以完成分析。而命令行版本的優(yōu)點則是可以大批量并行計算,縮短分析時間,缺點就是需要編程以及Linux系統(tǒng)管理基礎。目前,界面化程序主要有TBtools以及FasParser;命令行版本主要包括seqmagick、seqkit、seqtk、fasta_utilities、FASTAX-toolkit、fastascripts以及Reseqtools等。下面就簡單地介紹幾款軟件,詳細使用方法可自行Google。

FasParser

  • 提取及重命名fasta ID
  • 統(tǒng)計fasta序列長度信息
  • DNA翻譯為AA
  • 鑒定指定支系特異氨基酸或核苷酸位點
  • 提取4倍簡并位點、第1、2、3位密碼子
  • 根據(jù)ID串聯(lián)序列
  • 根據(jù)ID或者關鍵詞提取序列
  • 過濾序列

TBtools

  • 根據(jù)GFF/GTF以及基因組文件獲取CDS、protein序列
  • fasta序列與區(qū)段提取
  • fasta序列過濾
  • fasta序列信息統(tǒng)計
  • 序列反向互補
  • ID簡化
  • ID重命名
  • ID增加前綴
  • fasta文件合并與分割
  • 獲取基因組最長CDS
  • 序列模式定位

命令行工具

Seqkit

01. Sequence and subsequence
  • seq 轉換序列(反向、互補、提取ID)
  • subseq 按區(qū)域/GTF/BED獲取子序列,包括側翼序列
  • sliding 序列滑窗
  • stats 序列統(tǒng)計
  • fadix 建立索引,提取序列
02. Format conversion
  • fx2tab 將fasta轉換為表格形式,統(tǒng)計長度以及GC含量
  • translate 將DNA翻譯為蛋白
03. Searching
  • grep 通過id/name/sequence/sequence motifs搜索序列,允許不匹配
  • locate 定位子序列/基序,允許不匹配
  • fish 使用局部對齊在較大序列中尋找短序列
04. Set operations
  • rmdup 通過id/name/sequence刪除重復序列
  • common 通過id/name/sequence查找多個文件的公共序列
  • split 按id/seq區(qū)域/大小/部分將序列拆分
05. Edit
  • replace 通過正則匹配替換序列名
  • rename 重命名重復的id
  • concat 串聯(lián)序列
  • mutate 編輯序列(點突變、插入、刪除)
06. Ordering
  • sort 排序
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容