R語言實現(xiàn)蛋白質相互作用網(wǎng)絡——PPI

可以用網(wǎng)頁版做,但有上限2000個基因的限制。所以今天開發(fā)一下怎么用R飛一波。

1. 下載STRING數(shù)據(jù)庫中蛋白質相互作用網(wǎng)絡

2. 下載Uniprot ID轉換文件



打開terminal

wget -c ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping/

得到的是網(wǎng)頁形式,亂碼了



繼續(xù)剛才的步驟,拷貝鏈接

wget -c ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping/by_organism/

重復上述步驟,拷貝鏈接,wget


3. 萬事俱備,我們現(xiàn)在手里有三個文件,我整理一下他們之間的關系

1)input gene:我們關注的基因,symbol格式,可用Y叔的包轉化成Uniprot ID
2)id文件:uniprot和ENSG之間的對應關系
3)PPI互作文件:ENSG格式

接下來就開始愉快的數(shù)據(jù)清洗啦~~

  1. 準備工作:
library(dynamicTreeCut)
library(openxlsx)
library(stringr)
library(Matrix)
library(WGCNA)

Sys.setenv(LANGUAGE = "en") #顯示英文報錯信息
options(stringsAsFactors = FALSE) #禁止chr轉成factor
setwd("/Users/baiyunfan/desktop")
  1. 讀取這三個文件
idmapping<-read.table("HUMAN_9606_idmapping_selected.tab",header = F,as.is=T,sep="\t")
ppi <- read.table("9606.protein.actions.v11.0.txt",header=T,sep = "\t")
gene<-read.table("turquoise.txt",sep=",")
idmapping

gene

ppi
  1. 將我們的輸入基因SYMBOL轉化成UNIPROT ID
library(clusterProfiler)
m<-bitr(gene[,2],fromType = "SYMBOL",toType = "UNIPROT",OrgDb = "org.Hs.eg.db")
colnames(idmapping)[1]<-"UNIPROT"
  1. 通過idmapping文件,將UNIPROT,SYMBOL,ENSP三種ID聯(lián)系到一起
n<-merge(m,idmapping[,c(1,21)],by="UNIPROT",all.x=T)
n<-n[-which(n[,3]==""),]
  1. 上圖可看出,第三列有多個ENSP擠在一個格里,按照分號給拆分一下
prots<-str_split(n[,3],"[;]")
names(prots)<-n[,1]
prots_tmp<-unlist(lapply(1:length(prots), function(x){paste(names(prots)[x], prots[[x]],sep=";")}))
prots_mat <- str_split(prots_tmp,"[;]",2,simplify = T)
colnames(prots_mat) <- c("uniprot","ensemblprot")
prots_mat
  1. ppi文件前面多個9606.,需要清洗掉
ppi$item_id_a <- str_replace(ppi$item_id_a,"9606.","")
ppi$item_id_b <- str_replace(ppi$item_id_b,"9606.","")
  1. 將PPI中的目標基因留下,其余的刪掉,并刪去重復的
ppi<-ppi[which(ppi[,1] %in% prots_mat[,2] & ppi[,2] %in% prots_mat[,2]),]
ppi$identical<-paste0(ppi[,1],ppi[,2])
ppi<-ppi[!duplicated(ppi$identical),]
ppi$identical<-paste0(ppi[,2],ppi[,1])
ppi<-ppi[!duplicated(ppi$identical),]
ppi1

最后兩行就是我們的目標蛋白互作啦~

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 一:geisen_main_v1_2_1文件夾 (1)geisen_main_v1_2_1/src/geisen/...
    Mingyan_C閱讀 2,995評論 0 1
  • 歡迎關注”生信修煉手冊”! Gene Ontology是研究基因功能的重要數(shù)據(jù)庫之一,在進行GO的富集分析時,需要...
    生信修煉手冊閱讀 23,286評論 3 31
  • 如何下載 NCBI NR NT數(shù)據(jù)庫? 先了解BLAST Databases 1. Quick Start Get...
    pearlp閱讀 2,196評論 0 3
  • 一、在任意文件夾下面創(chuàng)建形如 1/2/3/4/5/6/7/8/9 格式的文件夾系列。 mkdir –p 1/2/3...
    Hocchan_7閱讀 4,331評論 1 50
  • 南山清泉山澗涌,阡陌小河終日流。 異鄉(xiāng)奔波又歸來,遙見南山山里紅。 昨日嬉鬧伴一同,今日獨憐舊荒冢...
    活著就是幸福閱讀 251評論 0 1

友情鏈接更多精彩內容