數(shù)據(jù)庫基因ID介紹及轉(zhuǎn)換(R的biomaRt包)

一、ID常識

ENSG00000141510
ensembl ID是歐洲生物信息數(shù)據(jù)庫的基因標(biāo)識符,ensembl ID是歐洲生物信息數(shù)據(jù)庫的基因標(biāo)識符,基因都是以ENSG(ensembl gene)四個大寫字母開始,后面跟著11位數(shù)字。它包含了兩萬多個蛋白質(zhì)編碼基因,有很多的假基因、miRNA等,因此它的數(shù)量較多,有六萬多個,比人類已知的基因數(shù)(2萬左右)多得多。

  • Ensemble ID 基本上是以ENS開頭,后接表示物種的符號, ENSMUS: 表示Mus musculus (Mouse)
  • Homo sapiens 直接以ENS表示
  • 少部分的,以其他開頭


    image.png
ENSMUSG00000000031: 小鼠基因
ENSMUST00000000031: 小鼠轉(zhuǎn)錄本
ENSMUSP00000000031: 小鼠蛋白
ENSG00000000031: 人基因

NG_017013
RefSeq數(shù)據(jù)庫,即RefSeq參考序列數(shù)據(jù)庫,是美國國家生物信息技術(shù)中心(NCBI)提供的具有生物意義上的非冗余的基因和蛋白質(zhì)等片段序列的數(shù)據(jù)庫。RefSeq 有一套特殊的 Accesion Number(就是我們通常用的RefSeq ID)讓我們來進(jìn)行檢索。ID的常見前綴為:

image.png

TP53
HGNC ID 是指由人類基因命名委員會(HUGO Gene Nomenclature Committee)指定的基因標(biāo)識符,該委員會通常對基因賦予一個名字以及一個ID。官方基因名字(gene symbol)由HGNC起名。HGNC命名的基因收錄在以下數(shù)據(jù)庫中:http://www.genenames.org/

人類TP53基因:

  • 標(biāo)準(zhǔn)的symbol(名字):TP53(tumor protein p53)
  • HGNC ID :11998

7157
Gene ID 也稱Entrez ID,就是一系列數(shù)字, 也比較容易辨識。NCBI的Gene數(shù)據(jù)庫記錄了不同物種的基因信息,在Gene數(shù)據(jù)庫中,給每一個基因提供了一個唯一的ID, 這個ID叫做Entrez ID,Entrez是NCBI的檢索系統(tǒng)的名字。在NCBI中,所有的基因都有Entrez ID和Gene Symbol, 其中只有部分基因擁有HGNC Symbol。

image.png

Gene ID (Entrez ID)查詢:https://www.ncbi.nlm.nih.gov/gene/

uc003tqk.4
UCSC的基因ID以uc開頭,比如uc003tqk.4, 稱之為knownGene, 完整的基因列表可以從以下鏈接下載:http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/knownGene.txt.gz

hsa:7157
KEGG的Gene 數(shù)據(jù)庫也擁有自己的gene ID, 以三個字母的物種縮寫和id構(gòu)成,比如tp53對應(yīng)的kegg gene id 為hsa:7157。鏈接如下:https://www.kegg.jp/dbget-bin/www_bget?hsa:7157

發(fā)表文章時,在文章中呈現(xiàn)的通常都是基因的HGNC symbol,就像TP53,EGFR,KRAS。

二、ID轉(zhuǎn)換

Biomart是ensembl下屬的一個網(wǎng)絡(luò)數(shù)據(jù)庫,里面包含非常多的信息。biomaRt包是該網(wǎng)站的R語言接口,可以幫助用戶在R語言中實現(xiàn)biomart的功能。

BiocManager::install("biomaRt")
library(biomaRt)

參考文章

https://www.sohu.com/a/245475759_777125
https://blog.csdn.net/shy_321/article/details/117968423
https://cloud.tencent.com/developer/article/1625202
https://cloud.tencent.com/developer/article/1638291
http://www.itdecent.cn/p/33e22a558457

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容