關(guān)于 數(shù)據(jù)庫 的 “ID”

常用數(shù)據(jù)庫 ID

序號 ID 示例 ID 來源
GLA, GLB, UGT1A1 HGNC Gene Symbol(基因的官方名稱)
ENSG00000116717 Ensemble ID(NCBI給予不同基因的一個代號(標(biāo)識符))即Ensembl數(shù)據(jù)庫的ID編號
GA45A_HUMAN UniProtKB/Swiss-Prot, entry name
A5PJB2_BOVIN UniProtKB/TrEMBL,entry name
A2BC19, P12345, A0A022YWF9 UniProt, accession number
U12345, AF123456 GenBank, NCBI, accession number
NT_123456, NM_123456, NP_123456 RefSeq, NCBI, accession number
10598, 717v Entrez ID, NCBI
uc001ett, uc031tla.1 UCSCID 編號

一、Gene Symbol & Gene Name

(一)Gene Symbol

Gene Symbol 是基因的官方的名稱,是對基因進(jìn)行命名描述的一個縮寫標(biāo)識符(如:TP53),Gene Symbol 是由專門的數(shù)據(jù)庫HGNC database of human gene names(人類基因命名委員會)來對人類中大多數(shù)基因的進(jìn)行命名,并由組織HUGO進(jìn)行維護(hù)。目前,HGNC已經(jīng)批準(zhǔn)了超過41500個Gene Symbol ,其中超過19190個基因?qū)儆诘鞍踪|(zhì)編碼基因,超過 7300個基因?qū)儆诜蔷幋aRNA的基因,同時HGNC還為假基因以及基因組特征命名。這些基因符號都是唯一的。

(二)Gene Name

Gene Name:Gene Name是經(jīng)過HGNC批準(zhǔn)的全基因名稱;與Gene Symbol對應(yīng)。Gene Symbol相當(dāng)于Gene Name的縮寫。例如TP53對應(yīng)的Gene Name就是:tumor protein p53 。

!因為HGNC只對人類基因進(jìn)行命名,而且并不是所有的基因都有Official Symbol。所以如果基因缺少HGNC提供的Gene Symbol ,Entrez Gene數(shù)據(jù)庫中的Official symbol就會變成Gene Symbol,并且Gene Symbol的編號會變成LOC前綴+Entrez ID,例如:LOC4333818


二、Ensembl IDs

(一)、組成

Ensembl ID的由5部分構(gòu)成: ENS(species)(object type)(identifier).(version)

(species) (object type) (identifier) . (version)
不同物種的前綴 數(shù)據(jù)所指的類型 再加上一系列的數(shù)字. 有的時候可以有不同的版本, 再加上小數(shù)點 再加版本號

Enseml ID數(shù)據(jù)所指的類型包括exon(外顯子), protein family(蛋白質(zhì)家族),, gene(基因),, gene tree(基因樹), protein(蛋白質(zhì)), regulatory feature( 調(diào)控特征)和 transcript(轉(zhuǎn)錄本).

(二)、解讀

如:ENSMUSG00000017167.6

① ENS代表這是一個Ensembl ID
② 第二部分代表物種, 如MUS代表小鼠(如果物種是人則不用填),常用物種見下表,其他物種的前綴可以點擊這里查找
③緊接著的第三部分代表ID的類型, 如G代表基因, T代表轉(zhuǎn)錄本……
④是一系列的特殊數(shù)字
⑥ 小數(shù)點 .
⑦ 小數(shù)點后代表版本號

所以這個是一個Ensembl ID (ENS), 物種為小鼠(MUS), 代表一個基因(G), 并且這是第6個版本(.6).

常用物種前綴

前綴 學(xué)名
ENSCEL Caenorhabditis elegans (Caenorhabditis elegans)
ENSCAF Canis lupus familiaris (Dog)
ENSDAR Danio rerio (Zebrafish)
FB Drosophila melanogaster (Fruitfly)
ENS Homo sapiens (Human)
ENSMUS Mus musculus (Mouse)
ENSRNO Rattus norvegicus (Rat)
ENSXET Xenopus tropicalis (Xenopus)

其他物種的前綴可以點擊這里查找

ID類型前綴

前綴 類型
E exon (外顯子)
FM Ensembl protein family(合蛋白家族)
G gene(基因)
GT gene tree(基因樹)
P protein(蛋白質(zhì))
R regulatory feature
T transcript(轉(zhuǎn)錄本)

三、UniProtKB/Swiss-Prot &UniProtKB/TrEMBL

(一)UniProt (蛋白質(zhì)序列數(shù)據(jù)庫)

UniProt是Universal Protein 的縮寫,是一個一級蛋白質(zhì)序列數(shù)據(jù)庫。
Uniprot包括UniProtKB知識庫、UniParc歸檔庫和UniRef參考序列集三部分,整合了三大數(shù)據(jù)庫(Swiss-Prot,TrEMBL和PIR-PSD)的數(shù)據(jù),是目前國際上最廣泛使用的蛋白質(zhì)數(shù)據(jù)庫.其中Swiss-ProtTrEMBL是核心數(shù)據(jù)庫UniProtKB的兩個子庫,兩個子庫相似,區(qū)別如下

Swiss-Prot子庫 TrEMBL子庫
整理 序列條目以及相關(guān)信息都經(jīng)過手工注釋和人工審閱 所有序列條目由計算機(jī)程序根據(jù)一定規(guī)則進(jìn)行自動注釋
團(tuán)隊 瑞士生物信息研究所團(tuán)隊負(fù)責(zé) 歐洲生物信息學(xué)研究所團(tuán)隊負(fù)責(zé)
內(nèi)容 蛋白質(zhì)序列數(shù)據(jù)的搜集、整理、分析、注釋,力圖為用戶提供高質(zhì)量的蛋白質(zhì)序列和豐富的注釋信息。 蛋白質(zhì)名、基因名、物種名、分類學(xué)地位等基本信息,功能、表達(dá)、定位、家族和結(jié)構(gòu)域等注釋信息,以及與其它數(shù)據(jù)庫的交叉鏈接。
比較 可靠性大(手工注釋、人工審閱) 可靠性比Swiss-Prot?。ㄗ詣幼⑨專?/td>

!兩者聯(lián)系
①采用統(tǒng)一的數(shù)據(jù)庫格式和登錄號系統(tǒng)(UniProt 中錄入的數(shù)據(jù)都被分配了一個唯一的 entry name)
②TrEMBL中的序列經(jīng)手工注釋和人工審閱后,歸并到Swiss-Prot子庫中,不再在TrEMBL子庫中保留。
③這兩個子庫的數(shù)據(jù)量差別很大,TrEMBL的數(shù)據(jù)數(shù)量遠(yuǎn)遠(yuǎn)超過了Swiss-Prot。

(二)關(guān)于兩個字庫UniProtKB/Swiss-Prot 的 “entry name”

由于UniprotKB的entry name有兩種命名方式:UniprotKB/Swiss-Prot entry name和UniprotKB/TrEMBL entry names

兩種命名方式的對比
Swiss-Prot “entry name” TrEMBL “entry name”
描述 最多 11 位包含大寫字母的字符串 最多 16 位包含大寫字母的字符串
形式 X_Y X_Y
X 最多五個便于記憶的蛋白質(zhì)編號① 6 到 10 個字符組成的登錄號(accession number②)
“-” “-” 是下劃線 “-” 是下劃線
Y 最多五個便于記憶的物種編號③ 最多五個便于記憶的物種編號 (由于數(shù)據(jù)太多,TrEMBL啟用了“虛擬編碼”④來對物種進(jìn)行分類,以數(shù)字9為前綴)
例子 PURQ_ZYMMO INS_HUMAN A5PJB2_BOVIN,

①蛋白質(zhì)編號示例

Code(X) Recommended protein name Gene name
B2MG Beta-2-microglobulin B2M
HBA Hemoglobin subunit alpha HBA1
INS Insulin INS
CAD17 Cadherin-17 CDH17

②Accession Number
Accession Number 相當(dāng)于數(shù)據(jù)庫的主鍵, 由 6 到 10 個大寫字母或者數(shù)字組成. 其構(gòu)成規(guī)律有三種類型如下:

類型 1 2 3 4 5 6 7 8 9 10 例子
[O /P /Q] [0-9] [A-Z/ 0-9] [A-Z /0-9] [A-Z/ 0-9] [0-9] P12345
[A-N /R-Z] [0-9] [A-Z] [A-Z/ 0-9] [A-Z /0-9] [0-9] A2BC19
[A-N/ R-Z] [0-9] [A-Z] [A-Z/ 0-9] [A-Z/ 0-9] [0-9] [A-Z] [A-Z 0-9] [A-Z /0-9] [0-9] A0A022YWF9

如果一個條目被分成兩個, 或者多個條目合成一個, 則有相應(yīng)的 accession number 繼承規(guī)則.
③物種編號

Code Species
BOVIN Bovine
CHICK Chicken
ECOLI Escherichia coli
HORSE Horse
HUMAN Homo sapiens
MAIZE Maize (Zea mays)
MOUSE Mouse
PEA Garden pea (Pisum sativum)
PIG Pig
RABIT Rabbit
RAT Rat
SHEEP Sheep
SOYBN Soybean (Glycine max)
TOBAC Common tobacco (Nicotina tabacum)
WHEAT Wheat (Triticum aestivum)
YEAST Baker’s yeast (Saccharomyces cerevisiae)

④虛擬的物種編碼

Mnemomnic code Taxonomic identifier Scope
9BACT 2 Bacteria
9CNID 6073 Cnidaria
9FUNG 4751 Fungi
9REOV 10880 Reoviridae

(三)Entry name與Accession Number的關(guān)系和區(qū)別

①提交數(shù)據(jù)到UniprotKB之后,每個數(shù)據(jù)都會被分配一個唯一的Accession Number(AC號)。如果為了減少數(shù)據(jù)冗余,將UniprotKB中的多個數(shù)據(jù)合并成一個,AC號仍保持不變。
Entry name也是每個數(shù)據(jù)唯一具有的標(biāo)識符,它可以展示數(shù)據(jù)的生物學(xué)信息,但并不穩(wěn)定存在的,比如說我們要將TrEMBL中的數(shù)據(jù)轉(zhuǎn)入Swiss-Prot,那么我們需要變更數(shù)據(jù)的Entry name,此時同一個數(shù)據(jù)的Entry name就發(fā)生了改變,但是它的AC號仍然保持不變。這就是他們之間的區(qū)別!
③還有需要注意的是,一個數(shù)據(jù)可能有兩個或者多個accession number 。
原因主要有兩個:
a.當(dāng)合并兩個或多個數(shù)據(jù)條目時,保留所有數(shù)據(jù)條目的登錄號。第一個AC編號稱為“主要AC編號”,其他編號稱為“次要AC編號”。編號排序是按字母數(shù)字順序排列的。
b.如果現(xiàn)有數(shù)據(jù)條目被分割為兩個或多個數(shù)據(jù)條目(“拆分”),新的“主要”登錄號將歸屬于所有分裂的條目,而所有原始登錄號將保留為“次要”登錄號。例如:P29358 被拆分成 P68250 和 P68251 。P68250 和 P68251的次級登錄號均為P29358 。
所以,UniprotKB建議,我們最好使用數(shù)據(jù)的主登錄號作為數(shù)據(jù)引用的方式(不是Entry name ,也不是二級登錄號),因為主登錄號是唯一并且穩(wěn)定存在的數(shù)據(jù)標(biāo)識符。

四、NCBI

(一)關(guān)于NCBI 的 GenBank & RefSeq

①NCBI(National Center for Biotechnology information)即美國國家生物技術(shù)信息中心是一個機(jī)構(gòu)組織,而不是數(shù)據(jù)庫,該中心的任務(wù)是:為儲存和分析分子生物學(xué)、生物化學(xué)、遺傳學(xué)知識創(chuàng)建自動化系統(tǒng);從事研究基于計算機(jī)的信息處理過程的高級方法,用于分析生物學(xué)上重要的分子和化合物的結(jié)構(gòu)與功能;促進(jìn)生物學(xué)研究人員和醫(yī)護(hù)人員應(yīng)用數(shù)據(jù)庫和軟件;努力協(xié)作以獲取世界范圍內(nèi)的生物技術(shù)信息
②GenBank是NCBI建立的DNA序列數(shù)據(jù)庫
③ RefSeq即參考序列。NCBI的RefSeq 數(shù)據(jù)庫(美國國立生物技術(shù)信息中心參考序列庫) 是一個參考序列的非冗余集合,數(shù)據(jù)庫包括構(gòu)建的基因組contig、mRNA、蛋白和整個染色體。RefSeq 數(shù)據(jù)庫是目前世界上最具有權(quán)威性的序列數(shù)據(jù)庫,也是目前最可信賴的人類基因mRNA序列數(shù)據(jù)庫
④RefSeq和genbank的數(shù)據(jù)的區(qū)別?
a. genbank是一個開放的數(shù)據(jù)庫,對每個基因都含有許多序列。很多研究者或者公司都可以自己提交序列,另外這個數(shù)據(jù)庫每天都要和EMBL和DDBJ交換數(shù)據(jù)。genbank的數(shù)據(jù)可能重復(fù)或者不準(zhǔn)。
b.RefSeq數(shù)據(jù)庫被設(shè)計成每個人類位點挑出一個代表序列來減少重復(fù),是NCBI提供的校正的序列數(shù)據(jù)和相關(guān)的信息。數(shù)據(jù)庫包括構(gòu)建的基因組contig、mRNA、蛋白和整個染色體。refseq序列是NCBI篩選過的非冗余數(shù)據(jù)庫,一般可信度比較高

(一)關(guān)于 GenBank 和 RefSeq 的 Accession Number

①GenBank Accession Number**

GenBank Accession numbers命名的規(guī)則是:

類別 規(guī)則
Nucleotide 1個字母+5個數(shù)字 2個字母+6位數(shù)字
Protein 3個字母+5位數(shù)字
WGS 4個字母+2位數(shù)字+WGS的版本+6-8位數(shù)字
MGA 5個字母+7位數(shù)字
②RefSeq Accession Number

RefSeq 有一套特殊的 Accesion Number.一般的命名格式:
前綴為兩個字母+下橫線('_')+ 6 個或更多的數(shù)字
NCBI RefSeq命名格式的詳細(xì)說明

例子
Accession Molecule Method 說明
AC_123456 Genomic Mixed 基因組序列,主要是病毒、原核生物。
AP_123456 Protein Mixed 蛋白序列,AP_原本只用于細(xì)菌的蛋白。
NC_123456 Genomic Mixed 全基因組序列,包括細(xì)胞器的、質(zhì)粒等
NG_123456、NM_123456 Genomic Mixed 不完整的基因組序列,
NM_123456789 、NP_123456 mRNA Mixed 成熟的mRNA
NP_123456789 Protein Mixed 全長蛋白序列。但也有可能包括非全長的蛋白或成熟的多肽序列。
NR_123456 RNA Mixed 不編碼的RNA,假基因或其它
Accession 前綴
Accession 前綴 類型 說明
AC_ Genomic Complete genomic molecule, usually alternate assembly (完整的基因組分子,通常交替組裝)
NC_ Genomic Complete genomic molecule, usually reference assembly(完整的基因組分子,通常參考組裝)
NG_ Genomic Incomplete genomic region(基因組區(qū)域不完整)
NT_ Genomic Contig or scaffold, clone-based or WGS(重疊群或支架,基于克隆或WGS)
NW_ Genomic Contig or scaffold, primarily WGS
NS_ Genomic Environmental sequence(環(huán)境順序)
NZ_ Genomic Unfinished WGS (未定義的WGS)
NM_ mRNA
NR_ RNA
XM_ mRNA Predicted model (預(yù)測模型)
XR_ RNA Predicted model(預(yù)測模型)
AP_ Protein Annotated on AC_ alternate assembly(在AC_備用裝配上標(biāo)注)
NP_ Protein Associated with an NM_ or NC_ accession(與NM_或NC_加入相關(guān))
YP_ Protein
XP_ Protein Predicted model, associated with an XM_ accession(與XM_加入相關(guān)的預(yù)測模型)
ZP_ Protein Predicted model, annotated on NZ_ genomic records (預(yù)測模型,已在NZ_基因組記錄中注釋)
  • WGS: Whole Genome Shotgun sequence data, 鳥槍法測序.

五、Entrez ID

GeneID即Entrez Gene ID(是NCBI中用來連接各個不同數(shù)據(jù)庫統(tǒng)一的基因標(biāo)志符)**
Entrez是歸屬于NCBI的一個綜合的文本檢索引擎系統(tǒng)。這個檢索引擎整合了PubMed數(shù)據(jù)庫的生物醫(yī)學(xué)文獻(xiàn)與其他39個文獻(xiàn)和分子數(shù)據(jù)庫(例如GEO,Entrez Gene等,這些數(shù)據(jù)庫基本涵蓋了DNA和蛋白質(zhì)序列,結(jié)構(gòu),基因,基因組,遺傳變異和基因表達(dá)方面的數(shù)據(jù))。NCBI組織建立了Entrez,Entrez整合了各大數(shù)據(jù)庫的入口,便于進(jìn)行數(shù)據(jù)庫檢索。通常所說的檢索NCBI數(shù)據(jù)庫,其實就是在檢索Entrez這個引擎系統(tǒng)所整合的生信數(shù)據(jù)庫。
由于Entrez 作為一個綜合性檢索引擎,為了方便,其對不同的 Gene 進(jìn)行了編號, 即 Entrez Gene ID. 并且由于 Entrez ID 相對穩(wěn)定,也被眾多其他數(shù)據(jù)庫, 如 KEGG 等. 一串?dāng)?shù)字的Entrez Gene ID 不但具有很高的辨識度,而且在ID轉(zhuǎn)化中占據(jù)著重要的地位。生信菜鳥團(tuán)的博客《NCBI的基因entrezID相關(guān)文件介紹》講解了Entrez ID主要的信息文件。

gene_id symbol chromosome
352937 dio2 20

表中g(shù)eneid即為 Entrezid. 在ID轉(zhuǎn)換中有重要的作用。

六、UCSC ID

UCSC ID 由小寫字母和數(shù)字構(gòu)成,
起 uc+三位數(shù)字+三位小寫字母+小數(shù)點+數(shù)字構(gòu)成版本號如:uc010qfk.3, uc010qfk.3.
! UCSC ID幾乎被拋棄不用了,只是因為UCSC是三大數(shù)據(jù)庫之一而已。

補(bǔ):tax_id代表物種的id, 如人類是9606

生信技能樹:超精華生信ID總結(jié),想踏入生信大門的你-值得擁有
常用數(shù)據(jù)庫ID表示方式
UniProt數(shù)據(jù)庫參考學(xué)習(xí)連接1(作者:thinkando)
NCBI參考序列(RefSeq)常見問題回答
NCBI RefSeq命名格式的詳細(xì)說明
DDBJ/EMBL/GenBank Accession的命名規(guī)則

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容