生信log|基因組數(shù)據(jù)注釋到底是怎么回事?
在一開始做生信分析的時(shí)候,我對下游的分析其實(shí)不太了解,當(dāng)時(shí)頻繁接觸到的概念叫“注釋”,注釋后就可獲得關(guān)鍵基因相關(guān)的一些數(shù)據(jù)。后來深入分析后也經(jīng)常會疑惑為什么某些數(shù)據(jù)就是注釋不上信息,參與到注釋數(shù)據(jù)庫的開發(fā)之后,對數(shù)據(jù)注釋有了更深入的認(rèn)識,于是寫下了本篇的說明,主要解釋的是功能注釋。
0. 本文目的
- 通過注釋過程明白注釋結(jié)果是怎么來的
- 了解數(shù)據(jù)庫的局限性
1. 基因組數(shù)據(jù)是怎么被注釋的
生物的數(shù)據(jù)一般分為表格數(shù)據(jù)和序列數(shù)據(jù)。雖然生物數(shù)據(jù)有很多種格式如
gff,vcf,bed等等, 但它們實(shí)際上都是以tab為分隔符的tsv表格,開頭一大段####這些都是注釋信息,python或者R語言讀取數(shù)據(jù)的時(shí)候一般都可以跳過。
- 序列數(shù)據(jù)
這里所說的序列數(shù)據(jù)指的是DNA(.fasta),蛋白質(zhì)序列(.faa)這一類文件。
網(wǎng)站提供的注釋流程應(yīng)該是先進(jìn)行序列比對,選出相似性最高的序列,搜索數(shù)據(jù)庫中相關(guān)信息最后得出結(jié)果。
參考及推薦閱讀