2023-02-08對候選基因(GWAS\轉(zhuǎn)錄組)進行GO注釋(氣泡圖和柱形圖)

目前網(wǎng)上的教程大多是模式植物,或者是非模式物種的重新構(gòu)建的教程。
今天分享一個新的方法,對非模式植物研究中獲得的基因(例如:GWAS、轉(zhuǎn)錄組差異基因等)進行轉(zhuǎn)錄因子富集分析氣泡圖和柱狀圖可視化。
教程如下:

利用plantTFDB對轉(zhuǎn)錄因子進行預(yù)測

1、準(zhǔn)備差異基因序列

提取差異基因序列
faSomeRecords ../Trinity.gene.fasta DEG_ID_FC1.5FDR0.05.txt leaf_vs_fruit_FC1.5FDR0.05.fasta
faSomeRecords ../Trinity.gene.fasta DEG_ID_FC1.5FDR0.05.txt stem_vs_fruit_FC1.5FDR0.05.fasta
faSomeRecords ../Trinity.gene.fasta DEG_ID_FC1.5FDR0.05.txt stem_vs_leaf_FC1.5FDR0.05.fasta
http://plantregmap.gao-lab.org/index.php

2、打開PlantTFDB(5.0)

數(shù)據(jù)庫鏈接如下:http://plantregmap.gao-lab.org/index.php
點擊導(dǎo)航欄的Prediction按鈕,即可打開預(yù)測頁面。

圖片.png

3、TF預(yù)測

然后輸入你的基因序列,比如差異基因序列,即可開始在線分析:


圖片.png

獲得TF_and_best1_in_Ath.list文件


圖片.png

注意:在這一步點擊下載選項不會直接下載文件,而是彈出結(jié)果頁面??梢杂脀get命令通過服務(wù)器進行下載
圖片.png

這個分析的作用就是:判斷你的哪些(差異)基因可能是轉(zhuǎn)錄因子。

4、go分析預(yù)測

將TF_and_best1_in_Ath.list中的第三列粘貼到框內(nèi)

圖片.png

圖片.png

開始submit運行
對結(jié)果進行下載


圖片.png

5、轉(zhuǎn)錄因子富集分析

圖片.png

富集分析的原理

網(wǎng)上已有很多人介紹其原理,我們平時最常用的富集分析方法就是Over-Represence Analysis(ORA),本質(zhì)上是一次不放回抽樣的概率事件。在這里首推CJ大神寫的推文:GO富集分析 從原理到實踐 ~ 零基礎(chǔ)掌握。大家可以自行閱讀,熟悉一下富集分析的原理。

轉(zhuǎn)錄因子的富集分析

當(dāng)你了解了富集分析背后的原理后,你就能明白:所謂轉(zhuǎn)錄因子富集分析,就是以全基因組各個家族的轉(zhuǎn)錄因子為背景,通過比較給定的基因中各個家族的轉(zhuǎn)錄因子的數(shù)量及比例來計算其顯著性。為了達到這一目的,我們需要做的無非是三件事:

  • 準(zhǔn)備包含待研究物種的基因組內(nèi)所有轉(zhuǎn)錄因子的文件;
  • 準(zhǔn)備個記錄轉(zhuǎn)錄因子基因ID和家族的對應(yīng)關(guān)系的文件;
  • 準(zhǔn)備待分析的轉(zhuǎn)錄因子的基因ID列表;
    當(dāng)然,我們還需要準(zhǔn)備富集分析用到的軟件,并根據(jù)軟件要求將數(shù)據(jù)調(diào)整成恰當(dāng)?shù)母袷健T摳患治鲂枰玫能浖荵叔開發(fā)的clusterProfile包,所以針對該包對數(shù)據(jù)的要求,上述提高的三個數(shù)據(jù)文件應(yīng)遵循如下形式:

TF id和物種內(nèi)所有轉(zhuǎn)錄因子基因ID的對應(yīng)關(guān)系,其中TFid是人為規(guī)定的(TF2gene);


圖片.png

TF id和轉(zhuǎn)錄因子家族的對應(yīng)關(guān)系(TF2term);


圖片.png

待分析的基因ID,比如某一時期處理A和對照B的所有差異基因ID (genelist)
圖片.png

整理文件如上述格式

輸入文件:PlantTFDB網(wǎng)站對全基因組蛋白序列的鑒定結(jié)果

文件名:TF_and_best1_in_Ath.list(還是上面的那個轉(zhuǎn)錄因子預(yù)測文件)

文件內(nèi)容如下:


圖片.png
library(tidyverse)
# 1.讀取數(shù)據(jù)
df <- read_tsv('TF_and_best1_in_Ath.list', comment = '#', col_names = F)
# 只保留前兩列
df <- select(df, X1:X2)

然后是獲得TF id和轉(zhuǎn)錄因子家族的對應(yīng)關(guān)系

TF2term <- df
TF2term <- df %>% 
  select(term = X2) %>%
  mutate(TF = paste('TF', 1:nrow(TF2term), sep = '_')) %>%
  select(TF, term)

以該文件為基礎(chǔ),給所有轉(zhuǎn)錄因子的基因ID分配TF id

TF2gene <- df %>% 
  left_join(TF2term, by = c('X2' = 'term')) %>%
  select(TF, gene = X1)

富集分析

library(clusterProfiler)
options(stringsAsFactors = F)
genelist <- read.table('genelist.txt')$V1

TFenrich <- enricher(gene = genelist,
                     TERM2GENE = TF2gene, 
                     TERM2NAME = TF2term,
                     pvalueCutoff = 1,
                     qvalueCutoff = 1,
                     pAdjustMethod = 'BH')
# plot
dotplot(TFenrich, showCategory = 20)
圖片.png

另外,你可以把富集結(jié)果轉(zhuǎn)換成數(shù)據(jù)框輸出或進一步繪圖

TF_datafram <- as.data.frame(TFenrich)
write.table(TF_datafram, 'TF_enrich.result', sep = '\t', row.names = F, quota =F)

6、GO富集柱形圖繪制

下載go_enrichment_full_all.txt文件


圖片.png

圖片.png

將go_enrichment_full_all.txt中的GO.ID、Annotated(Description)、Count(GeneNumber)和Aspect(type)四列手動提取出來,得到文件leaf_vs_fruit.csv


圖片.png

繪圖

data=read.csv("leaf_vs_fruit.csv",header=T,stringsAsFactors = F)
1.按照qvalue升序排序,分別選出前20個BP,CC,MF的條目,由于enrichGO函數(shù)生成的數(shù)據(jù)框默認(rèn)是按照qvalue升序排序,所以這里我們只用選取前二十個就行了
go_MF<-data[data$type=="molecular function",][1:20,]
go_CC<-data[data$type=="cellular component",][1:20,]
go_BP<-data[data$type=="biological process",][1:20,]
go_enrich_df<-data.frame(ID=c(go_BP$ID, go_CC$ID, go_MF$ID),
                         Description=c(go_BP$Description, go_CC$Description, go_MF$Description),
                         GeneNumber=c(go_BP$GeneNumber, go_CC$GeneNumber, go_MF$GeneNumber),
                         type=factor(c(rep("biological process", 20), rep("cellular component", 20),rep("molecular function",20)),levels=c("molecular function", "cellular component", "biological process")))
2.將GO_term設(shè)定為factor即可按照順序輸出
GO_term_order=factor(as.integer(rownames(go_enrich_df)),labels=go_enrich_df$Description)
library(ggplot2)
ggplot(data=go_enrich_df, aes(x=GO_term_order,y=GeneNumber, fill=type)) + geom_bar(stat="identity", width=0.8) + coord_flip() +  xlab("GO term") + ylab("Num of Genes") + theme_bw() + theme_classic() + theme(panel.border = element_rect(colour = "black", fill=NA, size=1))

圖片.png

參考
https://cloud.tencent.com/developer/article/1674672
https://mp.weixin.qq.com/s?__biz=Mzg5NDI0MDY0MA==&mid=2247494078&idx=1&sn=de2726a2554f7a77d6c689c28487e74d&chksm=c0203b51f757b2479e405c11b0cf5f93c10ab0759b867225406fb9dbf3ca732ca70f122f3b2f&mpshare=1&scene=1&srcid=0207YYqURmqQ0dOOxXE5PdcG&sharer_sharetime=1675733976691&sharer_shareid=131ce7013fe8cdac25e7cf500f2974d5&key=f4efb34f476d52d4e8e512ffce99e5285991d2700cc5232881e6a8f839c696e09488743c6d868614b7e6a490f93ddcb324821080b92075048667c7365b437703cf014889c5b17e5759d01ae2b1c0be8726907715c52a173310518dd8c65b19f9fe353ecfe64725be39c7a096ea43825ca0f69651ab7b4fdb44e3e7e80a34f54b&ascene=0&uin=MTc0MzUxMTczNQ%3D%3D&devicetype=Windows+10+x64&version=63090016&lang=zh_CN&exportkey=n_ChQIAhIQpr2JCT5bNGJr7Bh6JV4prxLgAQIE97dBBAEAAAAAAEGCDV0r%2BV8AAAAOpnltbLcz9gKNyK89dVj0qZAUrMe2LumFhOcDzy4pnUwAz3E%2BUnsQhlQKN4rlTmttVBEC12lY6wXgXBPxru6X22om%2BXCWNHNIU74erREKtOj70dtbDcRUT3TuxB4qD%2BHXfU63HuCINvXgQPQ8Xb%2FgjTJJLt3fHSTN%2BETSuP0%2F9oox1rJMb5BGMWV7pluhb6e6Ag%2F9hOJ0r3EVHLscvWOUVILbpx%2BcsUo51MK96Rjn5kI8hsmPoaVHBKUmAYsDdCwhcz%2FgI1eWE%2F%2FM&acctmode=0&pass_ticket=H5ZRnEVEy4hpgjMhkD4REt1GUwyi3%2BvGHPhe%2FgElV9PRtGDoxLJz%2FK8wJfOovLfUM4BL3cRCExrsES%2F%2Bh6%2F%2FXA%3D%3D&wx_header=1&fontgear=2
https://www.cnblogs.com/yanjiamin/p/12122215.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容