轉(zhuǎn)錄組學(xué)習(xí)一(軟件安裝)
轉(zhuǎn)錄組學(xué)習(xí)二(數(shù)據(jù)下載)
轉(zhuǎn)錄組學(xué)習(xí)三(數(shù)據(jù)質(zhì)控)
轉(zhuǎn)錄組學(xué)習(xí)四(參考基因組及gtf注釋探究)
轉(zhuǎn)錄組學(xué)習(xí)五(reads的比對(duì)與samtools排序)
轉(zhuǎn)錄組學(xué)習(xí)六(reads計(jì)數(shù)與標(biāo)準(zhǔn)化)
轉(zhuǎn)錄組學(xué)習(xí)七(差異基因分析)
轉(zhuǎn)錄組學(xué)習(xí)八(功能富集分析)
任務(wù)
- 選擇p<0.05而且abs(log2FC)大于1的基因?yàn)轱@著差異表達(dá)基因集,對(duì)這個(gè)基因集用R包做KEGG/GO超幾何分布檢驗(yàn)分析。
- 把表達(dá)矩陣和分組信息分別作出cls和gct文件,導(dǎo)入到GSEA軟件分析。
<font color=orange>GO富集分析</font>
一、bioconductor注釋數(shù)據(jù)庫的探究
- 官網(wǎng)上已有19個(gè)注釋數(shù)據(jù)庫,網(wǎng)址bioconductor.org/packages/release/ 看了一下植物只有一個(gè)擬南芥的。
- 如果不在注釋數(shù)據(jù)庫里,使用AnnotationHub來構(gòu)建自己的Org.db。
library(AnnotationHub)
hub <- AnnotationHub()
# 可以用query()函數(shù)來查找你要的物種注釋信息
# 選擇的格式是OrgDb.
query(hub, "Solanum lycopersicum")
sl <- hub[["AH55774"]]
- 對(duì)ORG.Mm.eg.db進(jìn)行簡(jiǎn)單的探究
library(org.Mm.eg.db)
keytypes(org.Mm.eg.db) ##查看有哪些數(shù)據(jù)類型,包含著各大主流數(shù)據(jù)庫的數(shù)據(jù)。
###用select函數(shù),就可以把任意公共數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行一一對(duì)應(yīng)。
### keys是原始的ID,columns是轉(zhuǎn)換之后的ID,keytype是要指定的原始ID類型
select(org.Mm.eg.db,keys = "ENSMUSG00000031762",columns = c("SYMBOL","GENENAME","UNIGENE","REFSEQ"),keytype = "ENSEMBL")
- 對(duì)ENSEMBL-ID進(jìn)行轉(zhuǎn)換
diff_gene_DESeq_raw <- subset(res_deseq, padj<0.05 & (log2FoldChange > 1 | log2FoldChange < -1))
diff_gene_DESeq_name <- row.names(diff_gene_DESeq_raw)
diff_gene_DESeq_transID<- select(org.Mm.eg.db, keys= diff_gene_DESeq_name, columns= c("SYMBOL", "GENENAME", "UNIGENE", "REFSEQ"), keystype="ENSEMBL")
- 結(jié)果可知幾大數(shù)據(jù)庫的基因?qū)?yīng)關(guān)系,其中有部分的數(shù)據(jù)是未知的?還不知道是什么原因,查找了下原始的小鼠gtf文件,發(fā)現(xiàn)注釋的基因是最近的?所以說可能是數(shù)據(jù)還不全導(dǎo)致的吧。
二、基因GO分析:
利用clusterProfiler的R包進(jìn)行GO分析
enrichGO(gene, OrgDb, keytype = "ENTREZID", ont = "MF",
pvalueCutoff = 0.05, pAdjustMethod = "BH", universe, qvalueCutoff = 0.2,
minGSSize = 10, maxGSSize = 500, readable = FALSE, pool = FALSE)
- 基本參數(shù):
gene:即基因ID;OrgDb:物種注釋數(shù)據(jù);keytype:ID的類型ont三個(gè)層面來闡述基因功能,生物學(xué)過程(BP),細(xì)胞組分(CC),分子功能(MF);pAdjustMethod:P值校正方法 - 進(jìn)行GO分析的基本代碼
ego <- enrichGO(gene = row.names(diff_gene_deseq2), OrgDb = org.Mm.eg.db, keytype = "ENSEMBL", ont = "MF")
###氣泡圖
dotplot(ego, font)
### 網(wǎng)絡(luò)圖
enrichMap(ego, vertex.label.cex=1.2, layout=igraph::layout.kamada.kawai)
###GO圖
plotGOgraph(ego)
三、基因KEGG分析:
KEGG介紹:KEGG數(shù)據(jù)庫(Kyoto Encyclopedia of Genes and Genomes)京都基因與基因組百科全書:KEGG PATHWAY數(shù)據(jù)庫由一系列經(jīng)人手繪制而成KEGG代謝路徑圖的構(gòu)成,以代表關(guān)于代謝以及其他細(xì)胞與生物機(jī)能的實(shí)驗(yàn)成果。每一張路徑圖俱包括了一個(gè)分子互動(dòng)與反應(yīng)的網(wǎng)絡(luò)圖,為連系基因組內(nèi)之基因及路徑所示過程生成的基因產(chǎn)物(以蛋白質(zhì)為主)而設(shè)。行使相同功能的基因聚在一起
目前KEGG等數(shù)據(jù)庫,收錄的是已有的研究結(jié)果。但這些pathway的信息,遠(yuǎn)沒有到達(dá)完善的水準(zhǔn)。大部分通路只是了解1個(gè)大概的調(diào)控途徑,而中間有什么轉(zhuǎn)錄因子參與、是否還有其他代謝物的生成,都是不知道的。這些通路的完整性,也會(huì)影響pathway富集分析結(jié)果。例如,基因A發(fā)生變化了,看起來下游基因沒有變化。也許是還有其他的調(diào)控在起作用,只是這些調(diào)控作用現(xiàn)在還不知道而已。
pathway 和 GO富集分析結(jié)果的解讀,應(yīng)該從生物學(xué)意義的角度出發(fā),P value 和 Q value只是個(gè)參考而已,那些不顯著的通路也值得解讀(從功能注釋的角度解讀,而不是從富集分析的角度解讀)。只要結(jié)果可以解釋,有意義,不用太迷信P value。
縮寫查看官網(wǎng):http://www.genome.jp/kegg/catalog/org_list.html
KEGG基本過程
diff_gene_deseq2_transID_kegg <- diff_gene_deseq2_transID[,4]
ekegg <- enrichKEGG(diff_gene_deseq2_transID_kegg,keyType = "kegg",organism = "mmu",pvalueCutoff = 0.05,pAdjustMethod = "BH",qvalueCutoff = 0.1)
### 畫氣泡圖:
dotplot(ekegg,font.size=8)
### 顯示通路圖
browseKEGG(ekegg,'mmu01100')
<font color=orange>基因集富集分析GSEA</font>
參考文章GSEA分析是個(gè)什么鬼?(上), GSEA分析是個(gè)什么鬼?(下)。文章將GSEA分析做了詳細(xì)的揭示,目前僅對(duì)看懂的部分做記錄,知道有這個(gè)分析方法,以后有需要再做詳細(xì)學(xué)習(xí)吧
一、基因富集分析概念
- 基因富集分析(Gene set enrichment analysis, GSEA)的基本思想是使用預(yù)定義的基因集(通常是來自于功能注釋或先前實(shí)驗(yàn)的結(jié)果),將基因按照在兩類樣本中的差異表達(dá)程度排序,然后檢驗(yàn)預(yù)先設(shè)定的基因集合是否在這個(gè)排序表的頂端或者底端富集?;蚣系母患治鍪菣z測(cè)基因集合而不是單個(gè)基因的表達(dá)變化,因此可以包含這些細(xì)微的表達(dá)變化,預(yù)期得到更為理想的結(jié)果。
- 分析的基因集合而不是單個(gè)基因
- 將基因與預(yù)定義的基因集進(jìn)行比較
- 富集分析
二、與通常富集方法GO和KEGG的比較:
GO和 KEGG 側(cè)重于比較兩組間的基因表達(dá)差異,集中關(guān)注少數(shù)幾個(gè)顯著上調(diào)或下調(diào)的基因,這容易遺漏部分差異表達(dá)不顯著卻有重要生物學(xué)意義的基因,忽略一些基因的生物特性、基因調(diào)控網(wǎng)絡(luò)之間的關(guān)系及基因功能和意義等有價(jià)值的信息。
GSEA分析不需要指定明確的差異基因閾值,算法會(huì)根據(jù)實(shí)際數(shù)據(jù)的整體趨勢(shì), 為研究者們提供了一種合理地解決目前芯片分析瓶頸問題的方法,即使在沒有先驗(yàn)經(jīng)驗(yàn)存在的情況下也能在表達(dá)譜整體層次上對(duì)數(shù)條基因進(jìn)行分析,從而從數(shù)理統(tǒng)計(jì)上把表達(dá)譜芯片數(shù)據(jù)與生物學(xué)意義很好地銜接起來,使得研究者們能夠更輕松、更合理地解讀芯片結(jié)果。
三、通常做差異分析設(shè)定閾值與后續(xù)KEGG與GO分析的問題**:
差異基因列表后,都會(huì)在此之上提供給客戶Pathway 以及GO 富集分析。這里這些篩選出來的差異基因本身就會(huì)存在一些問題。
在實(shí)際應(yīng)用于生物學(xué)高通量數(shù)據(jù)時(shí),對(duì)于差異基因檢出的閾值,異常的敏感,客戶需要給出差異基因的一個(gè)明確的定義(閾值),例如abs(FC) ≧2.0 & p ≦ 0.05。這種一刀切的閾值,對(duì)于發(fā)現(xiàn)真正的生物學(xué)效應(yīng),許多時(shí)候是一種障礙,因?yàn)?strong>實(shí)際通過芯片觀測(cè)到的RNA 表達(dá)變化,往往是層層的負(fù)反饋調(diào)控后的結(jié)果,并且不同組織對(duì)于表達(dá)差異的敏感度是不同的:在神經(jīng)遞質(zhì)系統(tǒng)內(nèi),一個(gè)1.2 倍的表達(dá)差異即可能產(chǎn)生及其顯著的效應(yīng)。
四、GSEA富集過程的基本步驟
- 計(jì)算富集分?jǐn)?shù)(Enrichment Score)
- 估計(jì)富集分?jǐn)?shù)的顯著性水平
-
矯正多重假設(shè)檢驗(yàn)
image
image
五、基本GSEA分析過程
GSEA_genelist <- diff_gene_deseq2_raw$log2FoldChange ### 對(duì)diff_gene的結(jié)果進(jìn)行分析
names(GSEA_genelist)<- rownames(diff_gene_deseq2_raw) ### 設(shè)置名字
GSEA_genelist<- sort(GSEA_genelist,decreasing = TRUE) ### 排序
gsem_gene <- gseGO(geneList = GSEA_genelist,OrgDb = org.Mm.eg.db, keyType = "ENSEMBL", ont = "MF")
gseaplot(gsem_gene,geneSetID = "GO:0000977")
看不懂在說啥,以后再慢慢研究這一類的圖吧。
總結(jié):從2017年10月7日~12月4號(hào),軟件安裝——數(shù)據(jù)下載——原始數(shù)據(jù)的質(zhì)控——參考基因組與注釋GTF文件的探究——READS比對(duì),排序——計(jì)數(shù),標(biāo)準(zhǔn)化——差異基因分析——功能富集分析。Linux基本操作、shell腳本編寫、Perl腳本編寫、軟件參數(shù)的具體含義了解。兩個(gè)月的時(shí)間終于跟著大神們的步伐將轉(zhuǎn)錄組的流程給學(xué)習(xí)了一遍。途中遇到了不少艱難的事,也花了不少深夜與周末的時(shí)間。好在終于把一個(gè)個(gè)知識(shí)點(diǎn)給攻克,一章章的任務(wù)分析給堅(jiān)持了下來。仍然有許多待學(xué)習(xí)的地方,比如一些軟件的進(jìn)階參數(shù)的選擇,結(jié)果的更加準(zhǔn)確解讀,R語言的語法、各種可視化圖片的繪制以及如何解讀,還有越來越覺得重要的一個(gè)大坑:統(tǒng)計(jì)學(xué)背景知識(shí)。這些都將是后續(xù)學(xué)習(xí)的方向。這不是結(jié)束,以后還會(huì)根據(jù)學(xué)習(xí)到的各種新知識(shí)來更好的完善這個(gè)分析流程大框架。加油吧。
參考文章
- 【基因富集分析_學(xué)習(xí)筆記】https://mp.weixin.qq.com/s?__biz=MzIwNTEwMTUyOQ==&mid=2649693906&idx=1&sn=341682dad10a9b52f3290239042c30f5&chksm=8f2dbe64b85a3772d3bc439498560ec22638783cb321be71e7ebb383a4de0186b3ea9b384475&scene=21#wechat_redirect
- 【PANDA姐的轉(zhuǎn)錄組入門(8):差異基因結(jié)果注釋】https://mp.weixin.qq.com/s?__biz=MzIwNTEwMTUyOQ==&mid=2649694917&idx=1&sn=a318f8cf98f306d46963986011c73600&chksm=8f2d8273b85a0b65270a986f7bb28e8efa7fd15309505a5a026bbedaafaff7e30e4d4f13dd02&scene=21#wechat_redirect
- 【(偽)從零開始學(xué)轉(zhuǎn)錄組(8):富集分析】https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484528&idx=1&sn=3af297d4163a70b049f861fc28c85bc2&chksm=e9e02dd1de97a4c79ab04a2c012ee6fe4b0aae5e1df59bdf2bf6b19e6ac1cb08ce379a6694e8&scene=21#wechat_redirect
- 【差異基因結(jié)果注釋】http://www.itdecent.cn/p/4910d7cec5c8
- 【GSEA分析是個(gè)什么鬼?(上)】https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655753566&idx=2&sn=5b5b2c93a7618a69da2cbc6638f03da0&chksm=80884960b7ffc076af53ae74caadb5dbb25d240c31660792e8727964d0177d6a17af7ca5fc5c&mpshare=1&scene=1&srcid=0816ADpKId3sPzgbYfubrFCf#rd
- 【GSEA是個(gè)什么鬼?(下)】https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655754973&idx=1&sn=3b87d5cb8ddd2d5d77e413e9a87342da&chksm=808846e3b7ffcff5a6b41985b707f52170f20eabe15fc43264b3d14a3ccf4100263789eab856&mpshare=1&scene=1&srcid=0816gHxusewlJeILw0fWxgi3#rd
- 【RNA-seq結(jié)果圖片如何解讀?(第一彈)】http://mp.weixin.qq.com/s/OFuP7nGGM3V9ghZ6lI1QuA
- 【RNA-seq中GO、KEGG結(jié)果圖如何解讀】http://mp.weixin.qq.com/s/UowQnL4bD7QUFHIXQ_JQKQ