Ensembl ID
特征
Gene Official Name,也就是Symbol可能是大家更愿意接受和理解的一種基因名,但是有時(shí)候我們會(huì)遇到類(lèi)似下面這種:
ENSG00000186092.4
ENSG00000279928.1
ENSG00000279457.2
此處ENS*就是Ensembl ID,其所代表的是在Ensembl數(shù)據(jù)庫(kù)中對(duì)基因的命名,當(dāng)拿到這樣一組數(shù)據(jù)時(shí),當(dāng)然是要先看懂其所代表的具體意義!
以ENSG00000186092.4為例:
1、ENS是固定字符,表示這是一個(gè)Ensembl ID。默認(rèn)物種是人,如果是小鼠的話(huà)則以ENSMUS開(kāi)頭,更多物種編碼詳見(jiàn):
http://www.ensembl.org/info/genome/stable_ids/index.html
2、G表示該id指的是一個(gè)基因,E for exon,** FM** for protein family, G for gene,** GT** for gene tree, P for protein, R for regulatory feature and T for transcript.
3、00000186092為11個(gè)數(shù)字組成的唯一編號(hào),可以理解為基因的真實(shí)編號(hào)
4、.4為版本號(hào),表示其在Ensembl數(shù)據(jù)中進(jìn)行了4次變更
對(duì)于Ensembl ID代表的意思詳見(jiàn):https://asia.ensembl.org/Help/Faq?id=488
分類(lèi)
ENST和ENSG的前三個(gè)字母(ENS),意思是“ENSENMBLE”。
- T是指轉(zhuǎn)錄本
- G是指基因
- P是指蛋白質(zhì)
備注:gencode的官網(wǎng):https://www.gencodegenes.org/human/ 里的meta files里下載的ID對(duì)應(yīng)的就是ENSTID
NCBI ID
GEO中最常用的entrez ID
每一個(gè)核酸序列都是唯一的數(shù)字ID
refseq的ID
NM開(kāi)頭的表示標(biāo)準(zhǔn)序列,
XM表示預(yù)測(cè)的蛋白編碼序列,
NR_表示非編碼蛋白的mRNA序列,
AF開(kāi)頭的表示克隆序列,
BC開(kāi)頭的表示模板序列
資料:http://www.itdecent.cn/p/13c0a04fd507
作者:Amy_Cui關(guān)注