婷婷激情五月九九九,日本不卡六区

7. 差異分析

將基因計數(shù)導(dǎo)入 R/RStudio

工作流程完成后，您現(xiàn)在可以使用基因計數(shù)表作為 DESeq2 的輸入，使用 R 語言進行統(tǒng)計分析。

7.1. 安裝R包

source("https://bioconductor.org/biocLite.R")
biocLite("DESeq2") ; library(DESeq2)
biocLite("ggplot2") ; library(ggplot2)
biocLite("clusterProfiler") ; library(clusterProfiler)
biocLite("biomaRt") ; library(biomaRt)
biocLite("ReactomePA") ; library(ReactomePA)
biocLite("DOSE") ; library(DOSE)
biocLite("KEGG.db") ; library(KEGG.db)
biocLite("org.Mm.eg.db") ; library(org.Mm.eg.db)
biocLite("org.Hs.eg.db") ; library(org.Hs.eg.db)
biocLite("pheatmap") ; library(pheatmap)
biocLite("genefilter") ; library(genefilter)
biocLite("RColorBrewer") ; library(RColorBrewer)
biocLite("GO.db") ; library(GO.db)
biocLite("topGO") ; library(topGO)
biocLite("dplyr") ; library(dplyr)
biocLite("gage") ; library(gage)
biocLite("ggsci") ; library(ggsci)

7.2. 導(dǎo)入表達矩陣

開始導(dǎo)入文件夾中的 featureCounts 表。本教程將使用 DESeq2 對樣本組之間進行歸一化和執(zhí)行統(tǒng)計分析。

# 導(dǎo)入基因計數(shù)表
# 使行名成為基因標(biāo)識符
countdata <- read.table("example/final_counts.txt", header = TRUE, skip = 1, row.names = 1)

# 從列標(biāo)識符中刪除 .bam 和 '..'
colnames(countdata) <- gsub(".bam", "", colnames(countdata), fixed = T)
colnames(countdata) <- gsub(".bam", "", colnames(countdata), fixed = T)
colnames(countdata) <- gsub("..", "", colnames(countdata), fixed = T)

# 刪除長度字符列
countdata <- countdata[ ,c(-1:-5)]

# 查看 ID
head(countdata)  # 如下圖

countdata

7.3. 導(dǎo)入metadata

導(dǎo)入元數(shù)據(jù)文本文件。 SampleID 必須是第一列。

# 導(dǎo)入元數(shù)據(jù)文件
# 使行名稱與 countdata 中的 sampleID 相匹配
metadata <- read.delim("example/metadata.txt", row.names = 1)

# 將 sampleID 添加到映射文件
metadata$sampleid <- row.names(metadata)

# 重新排序 sampleID 以匹配 featureCounts 列順序。
metadata <- metadata[match(colnames(countdata), metadata$sampleid), ]

# 查看 ID
head(metadata)  # 如下圖

metadata

7.4. DESeq2對象

根據(jù)計數(shù)和元數(shù)據(jù)創(chuàng)建 DESeq2 對象

# - countData : 基于表達矩陣
# - colData : 見上圖
# - design : 比較
ddsMat <- DESeqDataSetFromMatrix(countData = countdata,
                                 colData = metadata,
                                 design = ~Group)


# 查找差異表達基因
ddsMat <- DESeq(ddsMat)

7.5. 統(tǒng)計

獲取基因數(shù)量的基本統(tǒng)計數(shù)據(jù)

# 使用 FDR 調(diào)整 p-values 從檢測中獲取結(jié)果
results <- results(ddsMat, pAdjustMethod = "fdr", alpha = 0.05)

# 結(jié)果查看
summary(results)  # 如下圖

results

# 檢查 log2 fold change
## Log2 fold change is set as (LoGlu / HiGlu)
## Postive fold changes = Increased in LoGlu
## Negative fold changes = Decreased in LoGlu
mcols(results, use.names = T)  # 結(jié)果如下

mcols_result

8. 注釋基因symbol

經(jīng)過比對和總結(jié)，我們只有帶注釋的基因符號。要獲得有關(guān)基因的更多信息，我們可以使用帶注釋的數(shù)據(jù)庫將基因符號轉(zhuǎn)換為完整的基因名稱和 entrez ID 以進行進一步分析。

收集基因注釋信息

# 小鼠基因組數(shù)據(jù)庫
library(org.Mm.eg.db) 

# 添加基因全名
results$description <- mapIds(x = org.Mm.eg.db,
                              keys = row.names(results),
                              column = "GENENAME",
                              keytype = "SYMBOL",
                              multiVals = "first")

# 添加基因 symbol
results$symbol <- row.names(results)

# 添加 ENTREZ ID
results$entrez <- mapIds(x = org.Mm.eg.db,
                         keys = row.names(results),
                         column = "ENTREZID",
                         keytype = "SYMBOL",
                         multiVals = "first")

# 添加 ENSEMBL
results$ensembl <- mapIds(x = org.Mm.eg.db,
                          keys = row.names(results),
                          column = "ENSEMBL",
                          keytype = "SYMBOL",
                          multiVals = "first")

# 取 (q < 0.05) 的基因
results_sig <- subset(results, padj < 0.05)

# 查看結(jié)果
head(results_sig)  # 如下圖

將所有重要結(jié)果寫入 .txt 文件

# 將歸一化基因計數(shù)寫入 .txt 文件
write.table(x = as.data.frame(counts(ddsMat), normalized = T), 
            file = 'normalized_counts.txt', 
            sep = '\t', 
            quote = F,
            col.names = NA)

# 將標(biāo)準(zhǔn)化基因計數(shù)寫入 .txt 文件
write.table(x = counts(ddsMat[row.names(results_sig)], normalized = T), 
            file = 'normalized_counts_significant.txt', 
            sep = '\t', 
            quote = F, 
            col.names = NA)

# 將帶注釋的結(jié)果表寫入 .txt 文件
write.table(x = as.data.frame(results), 
            file = "results_gene_annotated.txt", 
            sep = '\t', 
            quote = F,
            col.names = NA)

# 將重要的注釋結(jié)果表寫入 .txt 文件
write.table(x = as.data.frame(results_sig), 
            file = "results_gene_annotated_significant.txt", 
            sep = '\t', 
            quote = F,
            col.names = NA)

9. 繪圖

有多種方法可以繪制基因表達數(shù)據(jù)。下面只列出了一些流行的方法。

9.1. PCA

# 將所有樣本轉(zhuǎn)換為 rlog
ddsMat_rlog <- rlog(ddsMat, blind = FALSE)

# 按列變量繪制 PCA
plotPCA(ddsMat_rlog, intgroup = "Group", ntop = 500) +
  theme_bw() +
  geom_point(size = 5) + 
  scale_y_continuous(limits = c(-5, 5)) +
  ggtitle(label = "Principal Component Analysis (PCA)", 
          subtitle = "Top 500 most variable genes")

plotPCA

9.2. Heatmap

# 將所有樣本轉(zhuǎn)換為 rlog
ddsMat_rlog <- rlog(ddsMat, blind = FALSE)

# 收集30個顯著基因，制作矩陣
mat <- assay(ddsMat_rlog[row.names(results_sig)])[1:40, ]

# 選擇您要用來注釋列的列變量。
annotation_col = data.frame(
  Group = factor(colData(ddsMat_rlog)$Group), 
  Replicate = factor(colData(ddsMat_rlog)$Replicate),
  row.names = colData(ddsMat_rlog)$sampleid
)

# 指定要用來注釋列的顏色。
ann_colors = list(
  Group = c(LoGlu = "lightblue", HiGlu = "darkorange"),
  Replicate = c(Rep1 = "darkred", Rep2 = "forestgreen")
)

# 使用 pheatmap 功能制作熱圖。
pheatmap(mat = mat, 
         color = colorRampPalette(brewer.pal(9, "YlOrBr"))(255), 
         scale = "row",
         annotation_col = annotation_col, 
         annotation_colors = ann_colors,
         fontsize = 6.5, 
         cellwidth = 55,
         show_colnames = F)

pheatmap

9.3. Volcano

# 從 DESeq2 結(jié)果中收集倍數(shù)變化和 FDR 校正的 pvalue
## - 將 pvalues 更改為 -log10 (1.3 = 0.05)
data <- data.frame(gene = row.names(results),
                   pval = -log10(results$padj), 
                   lfc = results$log2FoldChange)

# 刪除任何以 NA 的行
data <- na.omit(data)

## If fold-change > 0 and pvalue > 1.3 (Increased significant)
## If fold-change < 0 and pvalue > 1.3 (Decreased significant)
data <- mutate(data, color = case_when(data$lfc > 0 & data$pval > 1.3 ~ "Increased",
                                       data$lfc < 0 & data$pval > 1.3 ~ "Decreased",
                                       data$pval < 1.3 ~ "nonsignificant"))

# 用 x-y 值制作一個基本的 ggplot2 對象
vol <- ggplot(data, aes(x = lfc, y = pval, color = color))

# 添加 ggplot2 圖層
vol +   
  ggtitle(label = "Volcano Plot", subtitle = "Colored by fold-change direction") +
  geom_point(size = 2.5, alpha = 0.8, na.rm = T) +
  scale_color_manual(name = "Directionality",
                     values = c(Increased = "#008B00", Decreased = "#CD4F39", nonsignificant = "darkgray")) +
  theme_bw(base_size = 14) + 
  theme(legend.position = "right") + 
  xlab(expression(log[2]("LoGlu" / "HiGlu"))) + 
  ylab(expression(-log[10]("adjusted p-value"))) + 
  geom_hline(yintercept = 1.3, colour = "darkgrey") + 
  scale_y_continuous(trans = "log1p")

Volcano

9.4. MA

plotMA(results, ylim = c(-5, 5))

9.5. Dispersions

plotDispEsts(ddsMat)

plotDispEsts

9.6. 單基因圖

# 將所有樣本轉(zhuǎn)換為 rlog
ddsMat_rlog <- rlog(ddsMat, blind = FALSE)

# 獲得最高表達的基因
top_gene <- rownames(results)[which.min(results$log2FoldChange)]

# 畫單基因圖
plotCounts(dds = ddsMat, 
           gene = top_gene, 
           intgroup = "Group", 
           normalized = T, 
           transform = T)

單基因圖

10. 通路富集

從差異表達基因中尋找通路

通路富集分析是基于單個基因變化生成結(jié)論的好方法。有時個體基因的變化是難以解釋。但是通過分析基因的通路，我們可以收集基因反應(yīng)的視圖。

設(shè)置矩陣以考慮每個基因的 EntrezID 和倍數(shù)變化

# 刪除沒有任何 entrez 標(biāo)識符的基因
results_sig_entrez <- subset(results_sig, is.na(entrez) == FALSE)

# 創(chuàng)建一個log2倍數(shù)變化的基因矩陣
gene_matrix <- results_sig_entrez$log2FoldChange

# 添加 entrezID 作為每個 logFC 條目的名稱
names(gene_matrix) <- results_sig_entrez$entrez

# 查看基因矩陣的格式
##- Names = ENTREZ ID
##- Values = Log2 Fold changes
head(gene_matrix)  # 如下圖

gene_matrix

10.1. KEGG

使用 KEGG 數(shù)據(jù)庫豐富基因

kegg_enrich <- enrichKEGG(gene = names(gene_matrix),
                          organism = 'mouse',
                          pvalueCutoff = 0.05, 
                          qvalueCutoff = 0.10)

# 結(jié)果可視化
barplot(kegg_enrich, 
        drop = TRUE, 
        showCategory = 10, 
        title = "KEGG Enrichment Pathways",
        font.size = 8)

KEGG

10.2. GO

使用 Gene Onotology 豐富基因

go_enrich <- enrichGO(gene = names(gene_matrix),
                      OrgDb = 'org.Mm.eg.db', 
                      readable = T,
                      ont = "BP",
                      pvalueCutoff = 0.05, 
                      qvalueCutoff = 0.10)

# 結(jié)果可視化
barplot(go_enrich, 
        drop = TRUE, 
        showCategory = 10, 
        title = "GO Biological Pathways",
        font.size = 8)

11. 通路可視化

Pathview 是一個包，它可以獲取顯著差異表達基因的 KEGG 標(biāo)識符，還可以與 KEGG 數(shù)據(jù)庫中發(fā)現(xiàn)的其他生物一起使用，并且可以繪制特定生物的任何 KEGG 途徑。

# 加載包
biocLite("pathview") ; library(pathview)

# 可視化通路 (用 fold change) 
## pathway.id : KEGG pathway identifier
pathview(gene.data = gene_matrix, 
         pathway.id = "04070", 
         species = "mouse")

pathview

歡迎Star -> 學(xué)習(xí)目錄

國內(nèi)鏈接 -> 學(xué)習(xí)目錄

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

RNA-seq 保姆教程：差異表達分析（二）

RNA-seq 保姆教程：差異表達分析（二）

7. 差異分析

7.1. 安裝R包

7.2. 導(dǎo)入表達矩陣

7.3. 導(dǎo)入metadata

7.4. DESeq2對象

7.5. 統(tǒng)計

8. 注釋基因symbol

9. 繪圖

9.1. PCA

9.2. Heatmap

9.3. Volcano

9.4. MA

9.5. Dispersions

9.6. 單基因圖

10. 通路富集

10.1. KEGG

10.2. GO

11. 通路可視化

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

RNA-seq 保姆教程：差異表達分析（二）

7. 差異分析

7.1. 安裝R包

7.2. 導(dǎo)入表達矩陣

7.3. 導(dǎo)入metadata

7.4. DESeq2對象

7.5. 統(tǒng)計

8. 注釋基因symbol

9. 繪圖

9.1. PCA

9.2. Heatmap

9.3. Volcano

9.4. MA

9.5. Dispersions

9.6. 單基因圖

10. 通路富集

10.1. KEGG

10.2. GO

11. 通路可視化

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av