clusterProfiler包進(jìn)行id轉(zhuǎn)換

常用id

Ensemble id:由歐洲生物信息數(shù)據(jù)庫提供,一般以ENSG開頭,后邊跟11位數(shù)字。如TP53基因:ENSG00000141510
Entrez id:由美國NCBI提供,通常為純數(shù)字。如TP53基因:7157
Symbol id:為我們常在文獻(xiàn)中報(bào)道的基因名稱。如TP53基因的symbol id為TP53
Refseq id:NCBI提供的參考序列數(shù)據(jù)庫:可以是NG、NM、NP開頭,代表基因,轉(zhuǎn)錄本和蛋白質(zhì)。如TP53基因的某個(gè)轉(zhuǎn)錄本信息可為NM_000546
簡單介紹一下clusterProfiler包
clusterProfiler包是有Y叔開發(fā)的包之一,可以進(jìn)行基因及基因簇的分析和基因譜功能可視化,功能強(qiáng)大且更新很頻繁。我們今天在clusterProfiler包中用到的是其中的叫做bitr()和bitr_kegg()的函數(shù),支持許多物種的ID轉(zhuǎn)換。

clusterProfiler包的安裝

#安裝
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("clusterProfiler")
#查看幫助文檔
browseVignettes('clusterProfiler')
#載入包
library(clusterProfiler)
#載入注釋包  如人類的基因組注釋包library(org.Hs.eg.db)
library(org.Hs.eg.db)

簡單地說明一下注釋包:
因?yàn)樵诓煌奈锓N中,都有著不同的注釋信息。當(dāng)我們要進(jìn)行人類的基因組的注釋時(shí),我們要選擇人類的基因組注釋包。另外,在bioconductor中OrgDb對(duì)象支持19個(gè)物種的注釋http://bioconductor.org/packages/release/BiocViews.html#___OrgDb

查看注釋包中支持的ID轉(zhuǎn)換類型

clusterProfiler包方便地提供了keytypes()函數(shù)查看注釋包中的可以進(jìn)行ID轉(zhuǎn)換的項(xiàng)目。查看一下人類的注釋包中支持的ID轉(zhuǎn)換類型。
常用的幾種,如:ENSEMBL、ENTREZID、SYMBOL、REFSEQ都在其中
keytypes(org.Hs.eg.db)

ID轉(zhuǎn)換

如果輸入的是SYMBOL ID的話

利用birt()函數(shù)

eg <- bitr(x,fromType = 'SYMBOL',
           toType = c('ENTREZID','ENSEMBL','REGSEQ'),
           OrgDb='org.HS.eg.db',
)
#其中的參數(shù)代表:
geneID:輸入的geneID
fromType:輸入的ID類型
toType:輸出的ID類型
OrgDb:注釋對(duì)象的信息
Drop:去除空值與否

結(jié)果


函數(shù)輸出的對(duì)象為數(shù)據(jù)框dataframe,有利用數(shù)據(jù)框的操作方式進(jìn)行后續(xù)操作。

一個(gè)小例子

利用bitr_kegg()函數(shù)進(jìn)行基因ID與蛋白質(zhì)ID的轉(zhuǎn)換

和之前的bitr函數(shù)類似,完整的bitr_kegg()函數(shù)為bitr_kegg(geneID, fromType, toType, organism, drop = TRUE)
注意:
1.這里我們的輸入fromType以及輸出toType,允許的ID為必須為:‘kegg’, ‘ncbi-geneid’, ‘ncbi-proteinid’ or ‘uniprot’中的一個(gè),否則會(huì)報(bào)錯(cuò);另外,kegg id的數(shù)據(jù)源是NCBI,所以這個(gè)kegg id與entrez id是一致的。
2.orgaism參數(shù)可以為:‘hsa’,代表人類。其他的物種名稱可以參考kegg的網(wǎng)站https://www.genome.jp/kegg/catalog/org_list.html

以TP53基因?yàn)槔?,我們這里的輸入為TP53的entrez id: 7157

這里我們需要了解為什么會(huì)出現(xiàn)3個(gè)不同的uniprot。

首先,在uniprot中,uniProtKB是經(jīng)過專家校驗(yàn)的蛋白數(shù)據(jù)庫集,我們一般也通過該數(shù)據(jù)庫查找蛋白的信息。UniProtKB英文全稱UniProt Knowledgebase(UniProt知識(shí)庫。主要由兩部分組成:UniProtKB/Swiss-Prot (包含檢查過的、手工注釋的條目) 和 UniProtKB/TrEMBL (包含未校驗(yàn)的、自動(dòng)注釋的條目)。 網(wǎng)址為:https://www.uniprot.org/


我們分別看一下我們通過轉(zhuǎn)換之后的uniprot id在uniprot數(shù)據(jù)庫中的說明。我們進(jìn)入數(shù)據(jù)庫中查詢,可以發(fā)現(xiàn),P04637顯示的是TP53基因的蛋白質(zhì)表達(dá)水平,級(jí)別是Reviewed,就是其來源為UniProtKB/Swiss-Prot。



同理,我們可以找到K7PPA8和Q53GA5的結(jié)果。兩者都是轉(zhuǎn)錄本水平的表達(dá),級(jí)別都是Unreviewed,就是其來源為UniProtKB/TrEMBL。另外,相對(duì)而言,K7PPA8的注釋分?jǐn)?shù)要高,說明注釋的程度要高一些。

ID轉(zhuǎn)換之后

一般ID轉(zhuǎn)換僅僅為開始的準(zhǔn)備工作,將自己的數(shù)劇轉(zhuǎn)換好之后可以進(jìn)行后續(xù)的分析。另外,利用clusterProfiler包可以進(jìn)行許多豐富的下游分析,比如GO分析、KEGG分析等等,有興趣的同學(xué)們可以進(jìn)一步學(xué)習(xí)。
參考 http://www.360doc.com/content/19/0506/00/30846661_833639624.shtml

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容