interpro 注釋結(jié)果簡單分析及可視化

Interpro數(shù)據(jù)庫

Interpro是集成了蛋白質(zhì)家族、結(jié)構(gòu)域和功能位點的非冗余蛋白質(zhì)特征序列數(shù)據(jù)庫, Interpro數(shù)據(jù)庫成員包括Coils 、Gene3D、Pfam、PRINTS、ProSitePatterns、 ProSiteProfiles、 SMART、 SUPERFAMILY、 TIGRFAM、 ProDom、 PIR 數(shù)據(jù)庫。采用 interproscan 軟件可以對新蛋白質(zhì)序列通過序列比對或者 HMM 算法等搜索與 interpro 蛋白質(zhì)特征序列匹配預(yù)測蛋白質(zhì)各種結(jié)構(gòu)功能域、信號肽、跨膜特征、蛋白質(zhì)螺旋結(jié)構(gòu)等,interproscan 結(jié)果文件見下圖:


Interproscan注釋結(jié)果

interpro 結(jié)構(gòu)功能域或者功能位點計數(shù)分析

將注釋結(jié)果(文件鏈接http://rice.plantbiology.msu.edu/pub/data/Eukaryotic_Projects/o_sativa/annotation_dbs/pseudomolecules/version_7.0/all.dir/all.interpro)導(dǎo)入到R中進(jìn)行結(jié)構(gòu)功能域或者功能位點計數(shù)分析,代碼如下

```

#導(dǎo)入R包

library(tidyverse)

library(ggpubr)

# 讀取結(jié)果文件并去掉有缺失值的行

interpro <- read_tsv("all.interpro",na = "N/A") %>% na.omit()

# 統(tǒng)計蛋白質(zhì)家族、結(jié)構(gòu)域和功能位點的比例等

ipr <- interpro %>% select(model,ipr_acc,ipr_desc) %>% group_by(model, ipr_acc) %>%

? summarise(ipr_desc = ipr_desc[[1]]) %>% group_by(ipr_acc, ipr_desc) %>% summarise(Count=n())%>%

? arrange(desc(Count)) %>% ungroup() %>%mutate(Percent = Count/sum(Count))

# 繪制前20的結(jié)構(gòu)功能域或者功能位點

p <- ggplot(ipr) +

? geom_bar(aes(x = ipr_desc, y = Percent, fill = ipr_desc), stat = "identity") +

? scale_y_continuous(labels = scales::percent, limits = c(0, 0.08),name = "Percent of Domain") +

? scale_x_discrete(limits = ipr$ipr_desc[1:20], name = NULL) + scale_fill_discrete(guide = FALSE)+

? theme_pubr() +

? theme(axis.text.x=element_text(angle=60,vjust=1, hjust=1))

#展示圖片

p

#保存圖片

ggsave("interpro.pdf", p, width = 16, height = 10)

ggsave("interpro.png", p, width = 16, height = 10)

```

ipr數(shù)據(jù)如下:


結(jié)構(gòu)功能域或者功能位點計數(shù)

可視化結(jié)果:


interproscan 結(jié)構(gòu)功能域或者功能位點(top20)計數(shù)柱狀圖
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容