常用數(shù)據(jù)庫 ID
| 序號 | ID 示例 | ID 來源 |
|---|---|---|
| 一 | GLA, GLB, UGT1A1 | HGNC Gene Symbol(基因的官方名稱) |
| 二 | ENSG00000116717 | Ensemble ID(NCBI給予不同基因的一個代號(標(biāo)識符))即Ensembl數(shù)據(jù)庫的ID編號 |
| 三 | GA45A_HUMAN | UniProtKB/Swiss-Prot, entry name |
| 三 | A5PJB2_BOVIN | UniProtKB/TrEMBL,entry name |
| 三 | A2BC19, P12345, A0A022YWF9 | UniProt, accession number |
| 四 | U12345, AF123456 | GenBank, NCBI, accession number |
| 四 | NT_123456, NM_123456, NP_123456 | RefSeq, NCBI, accession number |
| 五 | 10598, 717v | Entrez ID, NCBI |
| 六 | uc001ett, uc031tla.1 | UCSCID 編號 |
一、Gene Symbol & Gene Name
(一)Gene Symbol
Gene Symbol 是基因的官方的名稱,是對基因進(jìn)行命名描述的一個縮寫標(biāo)識符(如:TP53),Gene Symbol 是由專門的數(shù)據(jù)庫HGNC database of human gene names(人類基因命名委員會)來對人類中大多數(shù)基因的進(jìn)行命名,并由組織HUGO進(jìn)行維護(hù)。目前,HGNC已經(jīng)批準(zhǔn)了超過41500個Gene Symbol ,其中超過19190個基因?qū)儆诘鞍踪|(zhì)編碼基因,超過 7300個基因?qū)儆诜蔷幋aRNA的基因,同時HGNC還為假基因以及基因組特征命名。這些基因符號都是唯一的。
(二)Gene Name
Gene Name:Gene Name是經(jīng)過HGNC批準(zhǔn)的全基因名稱;與Gene Symbol對應(yīng)。Gene Symbol相當(dāng)于Gene Name的縮寫。例如TP53對應(yīng)的Gene Name就是:tumor protein p53 。
!因為HGNC只對人類基因進(jìn)行命名,而且并不是所有的基因都有Official Symbol。所以如果基因缺少HGNC提供的Gene Symbol ,Entrez Gene數(shù)據(jù)庫中的Official symbol就會變成Gene Symbol,并且Gene Symbol的編號會變成LOC前綴+Entrez ID,例如:LOC4333818
二、Ensembl IDs
(一)、組成
Ensembl ID的由5部分構(gòu)成: ENS(species)(object type)(identifier).(version)
| (species) | (object type) | (identifier) | . | (version) |
|---|---|---|---|---|
| 不同物種的前綴 | 數(shù)據(jù)所指的類型 | 再加上一系列的數(shù)字. 有的時候可以有不同的版本, | 再加上小數(shù)點 | 再加版本號 |
Enseml ID數(shù)據(jù)所指的類型包括exon(外顯子), protein family(蛋白質(zhì)家族),, gene(基因),, gene tree(基因樹), protein(蛋白質(zhì)), regulatory feature( 調(diào)控特征)和 transcript(轉(zhuǎn)錄本).
(二)、解讀
如:ENSMUSG00000017167.6
① ENS代表這是一個Ensembl ID
② 第二部分代表物種, 如MUS代表小鼠(如果物種是人則不用填),常用物種見下表,其他物種的前綴可以點擊這里查找
③緊接著的第三部分代表ID的類型, 如G代表基因, T代表轉(zhuǎn)錄本……
④是一系列的特殊數(shù)字
⑥ 小數(shù)點 .
⑦ 小數(shù)點后代表版本號
所以這個是一個Ensembl ID (ENS), 物種為小鼠(MUS), 代表一個基因(G), 并且這是第6個版本(.6).
常用物種前綴
| 前綴 | 學(xué)名 |
|---|---|
| ENSCEL | Caenorhabditis elegans (Caenorhabditis elegans) |
| ENSCAF | Canis lupus familiaris (Dog) |
| ENSDAR | Danio rerio (Zebrafish) |
| FB | Drosophila melanogaster (Fruitfly) |
| ENS | Homo sapiens (Human) |
| ENSMUS | Mus musculus (Mouse) |
| ENSRNO | Rattus norvegicus (Rat) |
| ENSXET | Xenopus tropicalis (Xenopus) |
其他物種的前綴可以點擊這里查找
ID類型前綴
| 前綴 | 類型 |
|---|---|
| E | exon (外顯子) |
| FM | Ensembl protein family(合蛋白家族) |
| G | gene(基因) |
| GT | gene tree(基因樹) |
| P | protein(蛋白質(zhì)) |
| R | regulatory feature |
| T | transcript(轉(zhuǎn)錄本) |
三、UniProtKB/Swiss-Prot &UniProtKB/TrEMBL
(一)UniProt (蛋白質(zhì)序列數(shù)據(jù)庫)
UniProt是Universal Protein 的縮寫,是一個一級蛋白質(zhì)序列數(shù)據(jù)庫。
Uniprot包括UniProtKB知識庫、UniParc歸檔庫和UniRef參考序列集三部分,整合了三大數(shù)據(jù)庫(Swiss-Prot,TrEMBL和PIR-PSD)的數(shù)據(jù),是目前國際上最廣泛使用的蛋白質(zhì)數(shù)據(jù)庫.其中Swiss-Prot和TrEMBL是核心數(shù)據(jù)庫UniProtKB的兩個子庫,兩個子庫相似,區(qū)別如下
| Swiss-Prot子庫 | TrEMBL子庫 | |
|---|---|---|
| 整理 | 序列條目以及相關(guān)信息都經(jīng)過手工注釋和人工審閱 | 所有序列條目由計算機(jī)程序根據(jù)一定規(guī)則進(jìn)行自動注釋 |
| 團(tuán)隊 | 瑞士生物信息研究所團(tuán)隊負(fù)責(zé) | 歐洲生物信息學(xué)研究所團(tuán)隊負(fù)責(zé) |
| 內(nèi)容 | 蛋白質(zhì)序列數(shù)據(jù)的搜集、整理、分析、注釋,力圖為用戶提供高質(zhì)量的蛋白質(zhì)序列和豐富的注釋信息。 | 蛋白質(zhì)名、基因名、物種名、分類學(xué)地位等基本信息,功能、表達(dá)、定位、家族和結(jié)構(gòu)域等注釋信息,以及與其它數(shù)據(jù)庫的交叉鏈接。 |
| 比較 | 可靠性大(手工注釋、人工審閱) | 可靠性比Swiss-Prot?。ㄗ詣幼⑨專?/td> |
!兩者聯(lián)系
①采用統(tǒng)一的數(shù)據(jù)庫格式和登錄號系統(tǒng)(UniProt 中錄入的數(shù)據(jù)都被分配了一個唯一的 entry name)
②TrEMBL中的序列經(jīng)手工注釋和人工審閱后,歸并到Swiss-Prot子庫中,不再在TrEMBL子庫中保留。
③這兩個子庫的數(shù)據(jù)量差別很大,TrEMBL的數(shù)據(jù)數(shù)量遠(yuǎn)遠(yuǎn)超過了Swiss-Prot。
(二)關(guān)于兩個字庫UniProtKB/Swiss-Prot 的 “entry name”
由于UniprotKB的entry name有兩種命名方式:UniprotKB/Swiss-Prot entry name和UniprotKB/TrEMBL entry names
兩種命名方式的對比
| Swiss-Prot “entry name” | TrEMBL “entry name” | |
|---|---|---|
| 描述 | 最多 11 位包含大寫字母的字符串 | 最多 16 位包含大寫字母的字符串 |
| 形式 | X_Y | X_Y |
| X | 最多五個便于記憶的蛋白質(zhì)編號① | 6 到 10 個字符組成的登錄號(accession number②) |
| “-” | “-” 是下劃線 | “-” 是下劃線 |
| Y | 最多五個便于記憶的物種編號③ | 最多五個便于記憶的物種編號 (由于數(shù)據(jù)太多,TrEMBL啟用了“虛擬編碼”④來對物種進(jìn)行分類,以數(shù)字9為前綴) |
| 例子 | PURQ_ZYMMO INS_HUMAN | A5PJB2_BOVIN, |
①蛋白質(zhì)編號示例
| Code(X) | Recommended protein name | Gene name |
|---|---|---|
| B2MG | Beta-2-microglobulin | B2M |
| HBA | Hemoglobin subunit alpha | HBA1 |
| INS | Insulin | INS |
| CAD17 | Cadherin-17 | CDH17 |
②Accession Number
Accession Number 相當(dāng)于數(shù)據(jù)庫的主鍵, 由 6 到 10 個大寫字母或者數(shù)字組成. 其構(gòu)成規(guī)律有三種類型如下:
| 類型 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 例子 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Ⅰ | [O /P /Q] | [0-9] | [A-Z/ 0-9] | [A-Z /0-9] | [A-Z/ 0-9] | [0-9] | P12345 | ||||
| Ⅱ | [A-N /R-Z] | [0-9] | [A-Z] | [A-Z/ 0-9] | [A-Z /0-9] | [0-9] | A2BC19 | ||||
| Ⅲ | [A-N/ R-Z] | [0-9] | [A-Z] | [A-Z/ 0-9] | [A-Z/ 0-9] | [0-9] | [A-Z] | [A-Z 0-9] | [A-Z /0-9] | [0-9] | A0A022YWF9 |
如果一個條目被分成兩個, 或者多個條目合成一個, 則有相應(yīng)的 accession number 繼承規(guī)則.
③物種編號
| Code | Species |
|---|---|
| BOVIN | Bovine |
| CHICK | Chicken |
| ECOLI | Escherichia coli |
| HORSE | Horse |
| HUMAN | Homo sapiens |
| MAIZE | Maize (Zea mays) |
| MOUSE | Mouse |
| PEA | Garden pea (Pisum sativum) |
| PIG | Pig |
| RABIT | Rabbit |
| RAT | Rat |
| SHEEP | Sheep |
| SOYBN | Soybean (Glycine max) |
| TOBAC | Common tobacco (Nicotina tabacum) |
| WHEAT | Wheat (Triticum aestivum) |
| YEAST | Baker’s yeast (Saccharomyces cerevisiae) |
④虛擬的物種編碼
| Mnemomnic code | Taxonomic identifier | Scope |
|---|---|---|
| 9BACT | 2 | Bacteria |
| 9CNID | 6073 | Cnidaria |
| 9FUNG | 4751 | Fungi |
| 9REOV | 10880 | Reoviridae |
(三)Entry name與Accession Number的關(guān)系和區(qū)別
①提交數(shù)據(jù)到UniprotKB之后,每個數(shù)據(jù)都會被分配一個唯一的Accession Number(AC號)。如果為了減少數(shù)據(jù)冗余,將UniprotKB中的多個數(shù)據(jù)合并成一個,AC號仍保持不變。
②Entry name也是每個數(shù)據(jù)唯一具有的標(biāo)識符,它可以展示數(shù)據(jù)的生物學(xué)信息,但并不穩(wěn)定存在的,比如說我們要將TrEMBL中的數(shù)據(jù)轉(zhuǎn)入Swiss-Prot,那么我們需要變更數(shù)據(jù)的Entry name,此時同一個數(shù)據(jù)的Entry name就發(fā)生了改變,但是它的AC號仍然保持不變。這就是他們之間的區(qū)別!
③還有需要注意的是,一個數(shù)據(jù)可能有兩個或者多個accession number 。
原因主要有兩個:
a.當(dāng)合并兩個或多個數(shù)據(jù)條目時,保留所有數(shù)據(jù)條目的登錄號。第一個AC編號稱為“主要AC編號”,其他編號稱為“次要AC編號”。編號排序是按字母數(shù)字順序排列的。
b.如果現(xiàn)有數(shù)據(jù)條目被分割為兩個或多個數(shù)據(jù)條目(“拆分”),新的“主要”登錄號將歸屬于所有分裂的條目,而所有原始登錄號將保留為“次要”登錄號。例如:P29358 被拆分成 P68250 和 P68251 。P68250 和 P68251的次級登錄號均為P29358 。
所以,UniprotKB建議,我們最好使用數(shù)據(jù)的主登錄號作為數(shù)據(jù)引用的方式(不是Entry name ,也不是二級登錄號),因為主登錄號是唯一并且穩(wěn)定存在的數(shù)據(jù)標(biāo)識符。
四、NCBI
(一)關(guān)于NCBI 的 GenBank & RefSeq
①NCBI(National Center for Biotechnology information)即美國國家生物技術(shù)信息中心是一個機(jī)構(gòu)組織,而不是數(shù)據(jù)庫,該中心的任務(wù)是:為儲存和分析分子生物學(xué)、生物化學(xué)、遺傳學(xué)知識創(chuàng)建自動化系統(tǒng);從事研究基于計算機(jī)的信息處理過程的高級方法,用于分析生物學(xué)上重要的分子和化合物的結(jié)構(gòu)與功能;促進(jìn)生物學(xué)研究人員和醫(yī)護(hù)人員應(yīng)用數(shù)據(jù)庫和軟件;努力協(xié)作以獲取世界范圍內(nèi)的生物技術(shù)信息
②GenBank是NCBI建立的DNA序列數(shù)據(jù)庫
③ RefSeq即參考序列。NCBI的RefSeq 數(shù)據(jù)庫(美國國立生物技術(shù)信息中心參考序列庫) 是一個參考序列的非冗余集合,數(shù)據(jù)庫包括構(gòu)建的基因組contig、mRNA、蛋白和整個染色體。RefSeq 數(shù)據(jù)庫是目前世界上最具有權(quán)威性的序列數(shù)據(jù)庫,也是目前最可信賴的人類基因mRNA序列數(shù)據(jù)庫
④RefSeq和genbank的數(shù)據(jù)的區(qū)別?
a. genbank是一個開放的數(shù)據(jù)庫,對每個基因都含有許多序列。很多研究者或者公司都可以自己提交序列,另外這個數(shù)據(jù)庫每天都要和EMBL和DDBJ交換數(shù)據(jù)。genbank的數(shù)據(jù)可能重復(fù)或者不準(zhǔn)。
b.RefSeq數(shù)據(jù)庫被設(shè)計成每個人類位點挑出一個代表序列來減少重復(fù),是NCBI提供的校正的序列數(shù)據(jù)和相關(guān)的信息。數(shù)據(jù)庫包括構(gòu)建的基因組contig、mRNA、蛋白和整個染色體。refseq序列是NCBI篩選過的非冗余數(shù)據(jù)庫,一般可信度比較高
(一)關(guān)于 GenBank 和 RefSeq 的 Accession Number
①GenBank Accession Number**
GenBank Accession numbers命名的規(guī)則是:
| 類別 | 規(guī)則 |
|---|---|
| Nucleotide | 1個字母+5個數(shù)字 或 2個字母+6位數(shù)字 |
| Protein | 3個字母+5位數(shù)字 |
| WGS | 4個字母+2位數(shù)字+WGS的版本+6-8位數(shù)字 |
| MGA | 5個字母+7位數(shù)字 |
②RefSeq Accession Number
RefSeq 有一套特殊的 Accesion Number.一般的命名格式:
前綴為兩個字母+下橫線('_')+ 6 個或更多的數(shù)字
NCBI RefSeq命名格式的詳細(xì)說明
例子
| Accession | Molecule | Method | 說明 |
|---|---|---|---|
| AC_123456 | Genomic | Mixed | 基因組序列,主要是病毒、原核生物。 |
| AP_123456 | Protein | Mixed | 蛋白序列,AP_原本只用于細(xì)菌的蛋白。 |
| NC_123456 | Genomic | Mixed | 全基因組序列,包括細(xì)胞器的、質(zhì)粒等 |
| NG_123456、NM_123456 | Genomic | Mixed | 不完整的基因組序列, |
| NM_123456789 、NP_123456 | mRNA | Mixed | 成熟的mRNA |
| NP_123456789 | Protein | Mixed | 全長蛋白序列。但也有可能包括非全長的蛋白或成熟的多肽序列。 |
| NR_123456 | RNA | Mixed | 不編碼的RNA,假基因或其它 |
Accession 前綴
| Accession 前綴 | 類型 | 說明 |
|---|---|---|
| AC_ | Genomic | Complete genomic molecule, usually alternate assembly (完整的基因組分子,通常交替組裝) |
| NC_ | Genomic | Complete genomic molecule, usually reference assembly(完整的基因組分子,通常參考組裝) |
| NG_ | Genomic | Incomplete genomic region(基因組區(qū)域不完整) |
| NT_ | Genomic | Contig or scaffold, clone-based or WGS(重疊群或支架,基于克隆或WGS) |
| NW_ | Genomic | Contig or scaffold, primarily WGS |
| NS_ | Genomic | Environmental sequence(環(huán)境順序) |
| NZ_ | Genomic | Unfinished WGS (未定義的WGS) |
| NM_ | mRNA | |
| NR_ | RNA | |
| XM_ | mRNA | Predicted model (預(yù)測模型) |
| XR_ | RNA | Predicted model(預(yù)測模型) |
| AP_ | Protein | Annotated on AC_ alternate assembly(在AC_備用裝配上標(biāo)注) |
| NP_ | Protein | Associated with an NM_ or NC_ accession(與NM_或NC_加入相關(guān)) |
| YP_ | Protein | |
| XP_ | Protein | Predicted model, associated with an XM_ accession(與XM_加入相關(guān)的預(yù)測模型) |
| ZP_ | Protein | Predicted model, annotated on NZ_ genomic records (預(yù)測模型,已在NZ_基因組記錄中注釋) |
- WGS: Whole Genome Shotgun sequence data, 鳥槍法測序.
五、Entrez ID
GeneID即Entrez Gene ID(是NCBI中用來連接各個不同數(shù)據(jù)庫統(tǒng)一的基因標(biāo)志符)**
Entrez是歸屬于NCBI的一個綜合的文本檢索引擎系統(tǒng)。這個檢索引擎整合了PubMed數(shù)據(jù)庫的生物醫(yī)學(xué)文獻(xiàn)與其他39個文獻(xiàn)和分子數(shù)據(jù)庫(例如GEO,Entrez Gene等,這些數(shù)據(jù)庫基本涵蓋了DNA和蛋白質(zhì)序列,結(jié)構(gòu),基因,基因組,遺傳變異和基因表達(dá)方面的數(shù)據(jù))。NCBI組織建立了Entrez,Entrez整合了各大數(shù)據(jù)庫的入口,便于進(jìn)行數(shù)據(jù)庫檢索。通常所說的檢索NCBI數(shù)據(jù)庫,其實就是在檢索Entrez這個引擎系統(tǒng)所整合的生信數(shù)據(jù)庫。
由于Entrez 作為一個綜合性檢索引擎,為了方便,其對不同的 Gene 進(jìn)行了編號, 即 Entrez Gene ID. 并且由于 Entrez ID 相對穩(wěn)定,也被眾多其他數(shù)據(jù)庫, 如 KEGG 等. 一串?dāng)?shù)字的Entrez Gene ID 不但具有很高的辨識度,而且在ID轉(zhuǎn)化中占據(jù)著重要的地位。生信菜鳥團(tuán)的博客《NCBI的基因entrezID相關(guān)文件介紹》講解了Entrez ID主要的信息文件。
| gene_id | symbol | chromosome |
|---|---|---|
| 352937 | dio2 | 20 |
表中g(shù)eneid即為 Entrezid. 在ID轉(zhuǎn)換中有重要的作用。
六、UCSC ID
UCSC ID 由小寫字母和數(shù)字構(gòu)成,
起 uc+三位數(shù)字+三位小寫字母+小數(shù)點+數(shù)字構(gòu)成版本號如:uc010qfk.3, uc010qfk.3.
! UCSC ID幾乎被拋棄不用了,只是因為UCSC是三大數(shù)據(jù)庫之一而已。
補(bǔ):tax_id代表物種的id, 如人類是9606
生信技能樹:超精華生信ID總結(jié),想踏入生信大門的你-值得擁有
常用數(shù)據(jù)庫ID表示方式
UniProt數(shù)據(jù)庫參考學(xué)習(xí)連接1(作者:thinkando)
NCBI參考序列(RefSeq)常見問題回答
NCBI RefSeq命名格式的詳細(xì)說明
DDBJ/EMBL/GenBank Accession的命名規(guī)則