ID的認(rèn)識(shí)(ensembl、ncbi)

Ensembl ID

特征

Gene Official Name,也就是Symbol可能是大家更愿意接受和理解的一種基因名,但是有時(shí)候我們會(huì)遇到類(lèi)似下面這種:
ENSG00000186092.4
ENSG00000279928.1
ENSG00000279457.2

此處ENS*就是Ensembl ID,其所代表的是在Ensembl數(shù)據(jù)庫(kù)中對(duì)基因的命名,當(dāng)拿到這樣一組數(shù)據(jù)時(shí),當(dāng)然是要先看懂其所代表的具體意義!

以ENSG00000186092.4為例:

1、ENS是固定字符,表示這是一個(gè)Ensembl ID。默認(rèn)物種是人,如果是小鼠的話(huà)則以ENSMUS開(kāi)頭,更多物種編碼詳見(jiàn):
http://www.ensembl.org/info/genome/stable_ids/index.html

2、G表示該id指的是一個(gè)基因,E for exon,** FM** for protein family, G for gene,** GT** for gene tree, P for protein, R for regulatory feature and T for transcript.

3、00000186092為11個(gè)數(shù)字組成的唯一編號(hào),可以理解為基因的真實(shí)編號(hào)

4、.4為版本號(hào),表示其在Ensembl數(shù)據(jù)中進(jìn)行了4次變更

對(duì)于Ensembl ID代表的意思詳見(jiàn):https://asia.ensembl.org/Help/Faq?id=488

分類(lèi)

ENST和ENSG的前三個(gè)字母(ENS),意思是“ENSENMBLE”。

  • T是指轉(zhuǎn)錄本
  • G是指基因
  • P是指蛋白質(zhì)

備注:gencode的官網(wǎng):https://www.gencodegenes.org/human/ 里的meta files里下載的ID對(duì)應(yīng)的就是ENSTID
NCBI ID
GEO中最常用的entrez ID
每一個(gè)核酸序列都是唯一的數(shù)字ID

refseq的ID
NM開(kāi)頭的表示標(biāo)準(zhǔn)序列,
XM表示預(yù)測(cè)的蛋白編碼序列,
NR_表示非編碼蛋白的mRNA序列,
AF開(kāi)頭的表示克隆序列,
BC開(kāi)頭的表示模板序列

資料:http://www.itdecent.cn/p/13c0a04fd507
作者:Amy_Cui關(guān)注

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容