gene name和gene ID之間的轉(zhuǎn)換

在實(shí)際應(yīng)用中,我們經(jīng)常需要在gene name和gene ID之間進(jìn)行轉(zhuǎn)換。當(dāng)需要處理的基因數(shù)量很少時(shí),我們可以直接從NCBI(https://www.ncbi.nlm.nih.gov)上搜索,但當(dāng)要處理的基因很多時(shí),這顯然不是一個(gè)明智的選擇。最近我發(fā)現(xiàn)一個(gè)叫clusterProfiler的package可以很好的處理這個(gè)問題。

首先我們先安裝這個(gè)包,安裝這個(gè)包的時(shí)候需要用Biomanager。

BiocManager::install('clusterProfiler')

我們嘗試從gene name轉(zhuǎn)為gene ID
首先讀入gene name文件

library(clusterProfiler)

Tibetan_selected = read.table('genename.txt',header = FALSE,sep="\n")
genename = vector(mode="character",length=0)

for(i in 1:dim(Tibetan_selected)[1]){
  genename[i] = as.character(Tibetan_selected[i,1])
}
![genename_geneID.png](https://upload-images.jianshu.io/upload_images/16785064-14306861cd35e17c.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

進(jìn)行轉(zhuǎn)換,如果是人的基因的話,數(shù)據(jù)庫(kù)選擇org.Hs.eg.db。對(duì)于其他物種,可以參考http://bioconductor.org/packages/release/BiocViews.html#___OrgDb。比如Mouse對(duì)應(yīng)的就是"org.Mm.eg.db", 接下來我們安裝mouse的package即可。

BiocManager::install('org.Mm.eg.db')

如果是從gene name轉(zhuǎn)為gene ID的話,fromType和toType分別設(shè)定為SYMBOL和ENSEMBL。反之亦然。

#人的數(shù)據(jù)庫(kù) org.Hs.eg.db
name_ID = bitr(genename, fromType="SYMBOL", toType="ENSEMBL", OrgDb="org.Hs.eg.db")
genename_geneID.png

ps:匹配的成功率并不是100%,對(duì)于沒有匹配上的基因可能就需要手動(dòng)搜索了。

保存數(shù)據(jù)

#save the data
write.csv(name_ID,'root/name_ID.csv')

ps: 對(duì)于從gene name向gene ID部分gene匹配失敗的問題,可能是因?yàn)間ene name并不是HGNC的Official Symbol。這時(shí)可以手動(dòng)去NCBI上查找。比如“ATPIF1”在HGNC中的Official Symbol應(yīng)該是ATP5IF1。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容