生信log45|基因組數(shù)據(jù)注釋到底是怎么回事?

生信log|基因組數(shù)據(jù)注釋到底是怎么回事?

在一開始做生信分析的時(shí)候,我對下游的分析其實(shí)不太了解,當(dāng)時(shí)頻繁接觸到的概念叫“注釋”,注釋后就可獲得關(guān)鍵基因相關(guān)的一些數(shù)據(jù)。后來深入分析后也經(jīng)常會疑惑為什么某些數(shù)據(jù)就是注釋不上信息,參與到注釋數(shù)據(jù)庫的開發(fā)之后,對數(shù)據(jù)注釋有了更深入的認(rèn)識,于是寫下了本篇的說明,主要解釋的是功能注釋。

0. 本文目的

  • 通過注釋過程明白注釋結(jié)果是怎么來的
  • 了解數(shù)據(jù)庫的局限性

1. 基因組數(shù)據(jù)是怎么被注釋的

生物的數(shù)據(jù)一般分為表格數(shù)據(jù)和序列數(shù)據(jù)。雖然生物數(shù)據(jù)有很多種格式如gff,vcf,bed等等, 但它們實(shí)際上都是以tab為分隔符的tsv表格,開頭一大段####這些都是注釋信息,python或者R語言讀取數(shù)據(jù)的時(shí)候一般都可以跳過。

  • 序列數(shù)據(jù)

這里所說的序列數(shù)據(jù)指的是DNA(.fasta),蛋白質(zhì)序列(.faa)這一類文件。

網(wǎng)站提供的注釋流程應(yīng)該是先進(jìn)行序列比對,選出相似性最高的序列,搜索數(shù)據(jù)庫中相關(guān)信息最后得出結(jié)果。


參考及推薦閱讀

原核個(gè)性化分析
閱讀原文

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容