GO,KEGG,GSEA富集分析筆記

what is Gene Ontology ?——基因本體論

1 , 什么是本體論?
簡單來說,就是我們對一個具體事物進行分類并予以描述。
例如:貓是一種哺乳動物/貓是貓科動物/貓是一種生活在陸地的生物等等。對于一事物,我們可以用不同的分類加以描述。因此,對于gene的本體論,是對gene的一種描述。而對gene的描述大概分三種:
① Cellular component 簡稱CC
② Biological process 簡稱BP
③ Molecular Function 簡稱MF
下面一一進行介紹
① 主要是看gene存在在哪,比如存在在細胞質(zhì)還是細胞核,假如存在在細胞質(zhì),又存在在哪個細胞器呢?亦或者存在在線粒體中,是在線粒體膜上,還是線粒體機制中。
②指它能參與哪些生物學(xué)過程,比如說能夠參與RNA的加工,DNA復(fù)制等
③指從分子層面的功能是什么,比如說它具有什么催化功能分子功能等
所以, 我們可以從這三個方面得到基因的注釋信息。

2, 讓我們來捋一捋具體的思路:
① RNA-Seq 一般分為處理組和對照組 , 即contral 和 treatment , 然后根據(jù)ctrl 和 treatment的表達譜進行比較找出來DEG(differential expression gene : 差異表達基因,后續(xù)會更新怎么找出差異基因)。
② 我們得到DEG后,對其進行GO annotation (GO 注釋,即上面介紹的對gene 的描述), 我們期望可以在這三方面找到我們想要的以及未知的發(fā)現(xiàn)。
③那么下面一步就略微難理解, 比如說,我有200個DEG ,100個在細胞核中,那么我們可以說基因富集在了細胞核嗎?所以引出另外一個問題,How to test the GO is enriched ? 所以就有了GO 富集分析。對于模式生物(比如人),GO注釋已經(jīng)有了完備的數(shù)據(jù)庫可以使用。

④KEGG富集分析對于人而言,也有了完備的數(shù)據(jù)庫可以使用,我們只要將DEG整理到一個數(shù)據(jù)集,使用R便可得到富集結(jié)果(后續(xù)會更新怎么進行GO ,KEGG富集分析)。個人理解的原理是,請思考一個問題,人體有20000多個基因,假如由1000個基因能被注釋成通路A,而有500個差異基因,其中300個注釋到了通路A,那么這500個基因是否富集到了通路A?
計算公式

  個人通俗理解:從2000個基因碰到注釋為通路A的概率為1/20 , 而500個差異基因里就有300個,概率為3/5,所以說明跟這條通路可能有關(guān)系,當然具體還是要算P值。
⑤GSEA分析:Gene Set Enrichment Analysis (基因集富集分析)評估一個預(yù)先定義的基因集的基因在與表型相關(guān)度排序的基因表中的分布趨勢,從而判斷其對表型的貢獻。需要輸入DEG基因集 ,還有其表達矩陣,R會基因根據(jù)其于表型的關(guān)聯(lián)度(可以理解為表達值的變化)從大到小排序,然后判斷基因集內(nèi)每條注釋下的基因是否富集于表型相關(guān)度排序后基因表的上部或下部,從而判斷此基因集內(nèi)基因的協(xié)同變化對表型變化的影響。與前面的GO和KEGG富集分析不同,GO和KEGG富集分析是設(shè)置閾值篩選差異基因,再判斷差異基因在哪些注釋的通路存在富集;這涉及到閾值的設(shè)定,存在一定主觀性并且只能用于表達變化較大的基因。而GSEA則不局限于差異基因,從基因集的富集角度出發(fā),可以包括我們篩選掉的表達變化小卻對通路細微作用和協(xié)調(diào)功能的基因。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容