轉錄組分析——如何尋找差異基因中的中樞基因(hubgene)

一、前言

好久沒更新過文章啦,今天我們來聊一聊怎么找hubgene。

二、常見的尋找hubgene方法

我們如果要研究一個疾病,通常會做一個疾病的正常和非?;虿町惐磉_分析,而得到的這些差異基因,怎么往下縮小范圍往往是一個比較頭疼的問題。如果你經(jīng)常閱讀文獻或者對生信分析了解過一段時間,就會知道我們一般會從兩個方向去看
①GO和KEGG富集尋找感興趣的通路
②利用Cytocape及STRING數(shù)據(jù)庫進行PPI蛋白互作,尋找Degree最高的TOP10,或者根據(jù)插件ClusterONE等分模塊研究、基于cytohubba的各種算法進行關鍵基因提取。但是萬變不離其中:從蛋白質的功能信息出發(fā),查找與其功能相似或相關的蛋白質,并對這些蛋白質間的關聯(lián)程度進比較、量化。
第一種的問題在于通路中包含的基因太多了,這時候我可能無法進行展開研究。而且純人工挑選感興趣的通路,讓我感到生理上的不適。

第二種是我比較接受,但最近出現(xiàn)了問題的東西,也就是我現(xiàn)在要說的問題,比如我這個

這個是我研究的某個疾病,利用差異基因(P<0.05,logFC>2)繪制的PPI,我們感覺到基因像是富集了兩個模塊,但利用clusterONE分出來的只有畫紅圈的這一部分,下方不聚類或不全聚類。這就比較麻煩了,其實每個人對一個疾病進行研究,基本上都有一些研究思路,比如說我標顏色的這些基因才是我想研究的關鍵基因,如果根據(jù)Degree(其他數(shù)學模型算法都一樣,Degree比重是最高的)也不會挑出我想要的基因。問題來了,怎么解決?

三、GOSemSim包

出自https://www.sciencedirect.com/science/article/pii/S1874391912007567
怎么判斷哪些是hubgene?
第1個線索是基因的差異改變的程度比較大,但差異改變程度大并不一定代表重要。
第2個線索就是該基因的產(chǎn)物與通路上的其它基因產(chǎn)物都有互作的話。簡而言之,該基因編碼蛋白的“朋友”比較多的話,那么該基因就可能比較重要。
簡單的說,如果兩個基因產(chǎn)物的功能相似,那么他們在GO中注釋的術語(term),在GOtree中所處的位置就比較相近,反映在語義相似度上,就是他們的語義相似度比較。所以這是一個利用GO分析進行通路間關系強度打分的包,最后做成了這個樣子。這是我挑選的前十個基因,做成云雨圖。至于GOSemSim怎么使用,大家可以自由探索了解。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容