Interpro數(shù)據(jù)庫
Interpro是集成了蛋白質(zhì)家族、結(jié)構(gòu)域和功能位點的非冗余蛋白質(zhì)特征序列數(shù)據(jù)庫, Interpro數(shù)據(jù)庫成員包括Coils 、Gene3D、Pfam、PRINTS、ProSitePatterns、 ProSiteProfiles、 SMART、 SUPERFAMILY、 TIGRFAM、 ProDom、 PIR 數(shù)據(jù)庫。采用 interproscan 軟件可以對新蛋白質(zhì)序列通過序列比對或者 HMM 算法等搜索與 interpro 蛋白質(zhì)特征序列匹配預(yù)測蛋白質(zhì)各種結(jié)構(gòu)功能域、信號肽、跨膜特征、蛋白質(zhì)螺旋結(jié)構(gòu)等,interproscan 結(jié)果文件見下圖:

interpro 結(jié)構(gòu)功能域或者功能位點計數(shù)分析
將注釋結(jié)果(文件鏈接http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/version_7.0/all.dir/all.interpro)導(dǎo)入到R中進(jìn)行結(jié)構(gòu)功能域或者功能位點計數(shù)分析,代碼如下
```
#導(dǎo)入R包
library(tidyverse)
library(ggpubr)
# 讀取結(jié)果文件并去掉有缺失值的行
interpro <- read_tsv("all.interpro",na = "N/A") %>% na.omit()
# 統(tǒng)計蛋白質(zhì)家族、結(jié)構(gòu)域和功能位點的比例等
ipr <- interpro %>% select(model,ipr_acc,ipr_desc) %>% group_by(model, ipr_acc) %>%
? summarise(ipr_desc = ipr_desc[[1]]) %>% group_by(ipr_acc, ipr_desc) %>% summarise(Count=n())%>%
? arrange(desc(Count)) %>% ungroup() %>%mutate(Percent = Count/sum(Count))
# 繪制前20的結(jié)構(gòu)功能域或者功能位點
p <- ggplot(ipr) +
? geom_bar(aes(x = ipr_desc, y = Percent, fill = ipr_desc), stat = "identity") +
? scale_y_continuous(labels = scales::percent, limits = c(0, 0.08),name = "Percent of Domain") +
? scale_x_discrete(limits = ipr$ipr_desc[1:20], name = NULL) + scale_fill_discrete(guide = FALSE)+
? theme_pubr() +
? theme(axis.text.x=element_text(angle=60,vjust=1, hjust=1))
#展示圖片
p
#保存圖片
ggsave("interpro.pdf", p, width = 16, height = 10)
ggsave("interpro.png", p, width = 16, height = 10)
```
ipr數(shù)據(jù)如下:

可視化結(jié)果:
