GenBank格式是最古老的生物信息學數(shù)據(jù)格式之一,最初是為了兼顧可讀性和計算機處理的有些翱翔。具有所謂的固定寬度格式,其中前10個字符構成用作標識符的列,該行其余是與該標識符相對應的信息。

GeneBank格式
GeneBank數(shù)據(jù)
GeneBank格式可讀性可以,但不適合做分析,通常用ReadSeq工具轉(zhuǎn)換為其他更簡單的格式。
NCBI參考序列(RefSeq)項目提供許多生物體的序列記錄和相關信息,并為醫(yī)學、功能學和比較研究提供基線。
RefSeq數(shù)據(jù)庫是一組非冗余的參考標準,源于GenBank中存儲的所有數(shù)據(jù)。包括:
- 染色體
- 完整的基因組分子(細胞器基因組、病毒、質(zhì)粒)
- 中間組裝的gemonic contigs
- curated基因組區(qū)域
- mRNAs
- RNAs
- 蛋白質(zhì)
獲取不同數(shù)據(jù)格式并轉(zhuǎn)換
# Fetch the sequence from NCBI. 這里-format gb即Genebank文件
efetch -db nuccore -id NC_001501 -format gb > NC_001501.gb
cat NC_001501.gb | head
如果想要FASTA格式的文件
#既可以-format fasta
efetch -db nuccore -id NC_001501 -format fasta > NC_001501-version1.fa
#也可以用seqret將Genebank文件轉(zhuǎn)換為FASTA文件
cat NC_001501.gb | seqret -filter -osformat fasta > NC_001501-version2.fa
看看結(jié)果是否一樣
cat NC_001501-version1.fa | head -2
cat NC_001501-version2.fa | head -2
#事實上顯示的前兩行就有差別
什么時候改變數(shù)據(jù)格式?
- 如果數(shù)據(jù)源提供了多種數(shù)據(jù)格式,最好分別獲取每一種格式,而不是在格式之間相互轉(zhuǎn)換,每一次轉(zhuǎn)換都有可能出現(xiàn)問題
-
如果數(shù)據(jù)源只提供了一種格式,而且你不確定數(shù)據(jù)采用的基因組構建是否相同,那你只能自己做re-formatting了,這個過程一定要慎之又慎!“犯了點小錯誤”的數(shù)據(jù)往往是致命的
RefSeq記錄的特點是兩個字母加下劃線開頭:NP_
