基因ID類型

基因ID類型

常見基因ID類型包含Gene ID,Gene Symbol,Ensembl ID,RefSeq Accesion Number等。

Gene ID(Entrez Gene ID):來源于Entrez?基因數(shù)據(jù)庫的編號系統(tǒng),Entrez?基因數(shù)據(jù)庫歸屬于NCBI的子數(shù)據(jù)庫,整合了核酸、蛋白、基因組等生物信息檢索系統(tǒng)。Gene ID也是目前最權威的基因ID編號,格式為一串數(shù)字,以CDKN1A基因為例,可以通過NCBI網(wǎng)站中Gene去進行搜索,檢索如下,緊跟著CDKN1A那欄標注了Gene ID:1026。


在Gene界面,我們可以看到該信息的Summary,包含Officical Symbol,Official Full Name,Primary source等,另外我們還可以看到其Ensembl number,如CDKN1A,Ensembl:ENSG00000124762?MIM:116899。該基因是否屬于蛋白編碼基因,這里我們可以看到CDKN1A的Gene type屬于protein coding;RefSeq status為Reviewed(人工審核);Organism:Homo sapiens;Lineage:細胞系來源;以及不同的基因Symbol叫法。該基因的概述等。


Gene symbol:剛才我們介紹了NCBI中Gene頁面,我們在Summary的第一欄顯示的是Official Symbol,就是我們通常所說的Gene symbol。物種來源于人的,由HGNC(人類基因命名委員會)命名,同理小鼠來源的由MGNC命名,大鼠來源的由RGNC命名。第二欄中的Official Full Name也是由基因命名委員會批準的基因名稱。

Ensembl ID:我們可以在NCBI Gene中可以查詢到,另外就是Ensembl主頁中檢索。其命名規(guī)則包含五個部分,ENS前綴,提醒我們該命名來源于Ensembl ID,第二部分物種的前綴,第三部分Object type,G就是基因,P指蛋白,我們通過我們的示例,Ensembl:ENSG00000124762?MIM:116899,可以看出該Ensembl ID是個基因名稱,第四部分,identifier,是一段特定的數(shù)字,第五部分,版本號。如果沒有物種的前綴,則默認物種是人。但是注明的是這五個部分不一定都具備的。

RefSeq?Accesion?Number:即RefSeq?ID,其數(shù)據(jù)庫也是由NCBI?提供的具有生物意義的非冗余的基因或蛋白質(zhì)片段數(shù)據(jù)庫。在NCBI?Gene搜索下,我們可以看到RefSeq?狀態(tài),包括MODEL,INFERRED,PREDICTED,REVIEWED,VALIDATED等狀態(tài),我們示例顯示的就是REVIEWED,表明該數(shù)據(jù)人工審核過,可信度還是比較高的。

這里就簡單對基因常見類型ID進行概述,咱們下期再見。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容