隨著高通量技術(shù)的快速發(fā)展,TCGA、GTEx等公共數(shù)據(jù)庫(kù)的建立開(kāi)放,海量的數(shù)據(jù)呈現(xiàn)在科研工作者的面前。
但是隨之而來(lái)的問(wèn)題也逐漸顯現(xiàn),像小編我這樣無(wú)任何生信分析基礎(chǔ)的人如何有效整理和利用這些已有的大數(shù)據(jù)信息呢?
隔行如隔山,從前的我面對(duì)生信望而卻步,但是讀完今天的文章,相信你一定可以像我一樣玩轉(zhuǎn)生信。
接下來(lái)就對(duì)即將介紹的GEPIA做一次全面分析。
官網(wǎng)地址為http://gepia.cancer-pku.cn/,該網(wǎng)站由北京大學(xué)的團(tuán)隊(duì)開(kāi)發(fā)造福了廣大科研、臨床工作者。
下面依次介紹其Single Gene Analysis、Cancer?Type Analysis、Multiple Gene Analysis三大板塊的功能。
01
Single Gene Analysis

這里以KRAS基因作為演示,在搜索欄輸入KRAS,即使基因有別稱(chēng)或其它家族,系統(tǒng)也會(huì)幫你篩選檢索,點(diǎn)擊GoPIA。

檢索的結(jié)果左側(cè)是對(duì)KRAS基因的介紹。此外還包括該基因在其他數(shù)據(jù)庫(kù)的快速鏈接,包括GeneCard、NCBI、Ensembl等。
右側(cè)的Bodymap則比較生動(dòng)形象,綠色代表KRAS在正常組織的表達(dá),紅色代表KRAS在腫瘤組織的表達(dá)。

下拉是KRAS基因在癌組織及癌旁組織中的表達(dá)情況,紅色代表該基因在該種癌癥中明顯高表達(dá),綠色代表該基因在該種癌癥中明顯低表達(dá)。
例如這里KRAS基因在胰腺癌(PAAD)和睪丸生殖細(xì)胞腫瘤(TGCT)這兩種腫瘤中明顯高表達(dá)。該功能特別適用于某個(gè)基因的pancancer分析。


02
Cancer Type Analysis
Cancer Type Analysis分為Differential genes analysis和Most Significant Survival Genes兩類(lèi)功能。

Differential genes analysis可對(duì)選定癌種的差異基因分析匯總,并具體在每一條染色體表示。


Most Significant Survival Genes能夠?qū)μ囟ú》N里所有與預(yù)后差異顯著相關(guān)的基因的匯總。這個(gè)適合研一剛?cè)雽W(xué)的同學(xué)尋找課題。

03
Multiple Gene Analysis
Multiple Gene Analysis分為Multiple Gene Comparison、Correlation Analysis和Dimensionality Reduction三大功能。

Multiple Gene Comparison是對(duì)多個(gè)目標(biāo)基因的表達(dá)分析。在Gene list輸入一些你想要分析的基因,然后在Dataset里選擇所需要的腫瘤類(lèi)型點(diǎn)擊Add進(jìn)行添加,在Matched Norma data里可以選擇樣本來(lái)源,最后點(diǎn)擊“Plot”繪圖。


Correlation Analysis這個(gè)功能適合了解兩個(gè)基因之間的關(guān)聯(lián)性,手動(dòng)輸入Gene A和Gene B選擇你所希望分析的兩個(gè)基因相關(guān)性的腫瘤或組織來(lái)源,同樣點(diǎn)擊“Plot”繪圖。


Dimensionality Reduction是多基因的降維分析,一般使用的是PCA主成分分析(Principal Component Analysis),它可以利用基因,對(duì)樣本進(jìn)行主成分分析,能將腫瘤和正常組織分開(kāi)的基因,并對(duì)應(yīng)繪制2維和3維的PCA圖,被認(rèn)為具有很好的診斷價(jià)值。但是GEPIA中這一功能目前可能還未完善,總是處于報(bào)錯(cuò)階段。
放在最后講的功能也是大多數(shù)科研工作者、臨床醫(yī)生最關(guān)注的差異表達(dá)和生存分析?;蚰軌虿町惐磉_(dá)是前提,沒(méi)有差異就不大可能用于診斷,也不適合做治療靶點(diǎn),如果該基因與生產(chǎn)相關(guān),則更是錦上添花。
Box plot可以對(duì)特定基因的特定癌種的正常組織對(duì)比腫瘤組織的表達(dá)分析。選定癌種,選定閾值以及納入組織類(lèi)型,就可以得到即用的表達(dá)箱圖,有紅色星星的表示有差異。


Survival Plots生存分析是大部分科研工作者及臨床醫(yī)生所關(guān)注的重中之重,GEPIA擁有高度自由的生存分析及快速的出圖速度,讓人稱(chēng)奇。首先輸入所研究的基因,然后在“Datasets Selection”處選定要分析的癌種,點(diǎn)擊“Plot”就可以生成生存曲線(xiàn)圖并自動(dòng)生成Logrank和HR值。


總的來(lái)說(shuō),GEPIA擁有的功能非常全面且操作簡(jiǎn)潔,能滿(mǎn)足我們基本的生信數(shù)據(jù)分析,非常適合常規(guī)實(shí)驗(yàn)室文章的臨床數(shù)據(jù)補(bǔ)充和驗(yàn)證。
轉(zhuǎn)自:GEPIA功能全面介紹 – sci666