2020-01-11 了解GeneBank格式

GenBank格式是最古老的生物信息學數(shù)據(jù)格式之一,最初是為了兼顧可讀性和計算機處理的有些翱翔。具有所謂的固定寬度格式,其中前10個字符構成用作標識符的列,該行其余是與該標識符相對應的信息。

GeneBank格式

GeneBank數(shù)據(jù)

GeneBank格式可讀性可以,但不適合做分析,通常用ReadSeq工具轉(zhuǎn)換為其他更簡單的格式。
NCBI參考序列(RefSeq)項目提供許多生物體的序列記錄和相關信息,并為醫(yī)學、功能學和比較研究提供基線。
RefSeq數(shù)據(jù)庫是一組非冗余的參考標準,源于GenBank中存儲的所有數(shù)據(jù)。包括:

  • 染色體
  • 完整的基因組分子(細胞器基因組、病毒、質(zhì)粒)
  • 中間組裝的gemonic contigs
  • curated基因組區(qū)域
  • mRNAs
  • RNAs
  • 蛋白質(zhì)

獲取不同數(shù)據(jù)格式并轉(zhuǎn)換

# Fetch the sequence from NCBI. 這里-format gb即Genebank文件
efetch -db nuccore -id NC_001501 -format gb > NC_001501.gb
cat NC_001501.gb | head
如果想要FASTA格式的文件
#既可以-format fasta
efetch -db nuccore -id NC_001501 -format fasta > NC_001501-version1.fa
#也可以用seqret將Genebank文件轉(zhuǎn)換為FASTA文件
cat NC_001501.gb | seqret -filter -osformat fasta > NC_001501-version2.fa

看看結(jié)果是否一樣

cat NC_001501-version1.fa | head -2
cat NC_001501-version2.fa | head -2
#事實上顯示的前兩行就有差別

什么時候改變數(shù)據(jù)格式?

  1. 如果數(shù)據(jù)源提供了多種數(shù)據(jù)格式,最好分別獲取每一種格式,而不是在格式之間相互轉(zhuǎn)換,每一次轉(zhuǎn)換都有可能出現(xiàn)問題
  2. 如果數(shù)據(jù)源只提供了一種格式,而且你不確定數(shù)據(jù)采用的基因組構建是否相同,那你只能自己做re-formatting了,這個過程一定要慎之又慎!“犯了點小錯誤”的數(shù)據(jù)往往是致命的
    RefSeq記錄的特點是兩個字母加下劃線開頭:NP_


?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容