無碼生信 | 濕實驗同學的福音 -GEPIA

肖恩打算搜羅現有的提供生物信息相關的數據庫、分析網站和工具,讓不會代碼的小伙伴們,也能在科研過程中,享受生物信息學帶來的高效和風騷。
Bioinformatics is click away!

分類

渣渣本渣的研究主要集中在癌癥生物標志物,雖然渣到不能在渣,也積累一些易上手的資源,適合做濕實驗的同學把玩把玩(FYI,寫代碼的叫干實驗,分子實驗、細胞實驗、動物實驗等都是濕實驗)。也由于領域的限制,對生物信息學的其他領域不太清楚,煩請看官見諒!

在本人常用的工具中,主要有以下幾類:

  • 基因注釋數據庫(NCBI,Ensembl,KEGG,String,Oncomine,Genecard)
  • 基因表達數據庫(TCGA,GEO,METABRIC,GTEx, PHA)
  • 序列比對(pair-wise alignment,blast)
  • 生存分析 (KM-plotter)
  • 表達分析(GEPIA, GEO, cbioportal, firehouse)
  • 基因功能分析(Metascape, David, GeneMinia)
    ...

今天主要來講講這個GEPIA,其他網站以后慢慢更新

GEPIA 介紹

為什么先將這個網站呢?

因為這是目前為止,我發(fā)現的,最簡單,功能非常豐富的一個網站,而且訪問速度也快,是北大一個實驗室搭建的,是無碼生信家族中最福的音。

GEPIA 大名為 Gene Expression Profiling Interactive Analysis (http://gepia.cancer-pku.cn/),主要介紹以下功能:(這是2020年4月的情況,該網站還在不斷更新)

  • Expression Profile
  • Boxplots
  • Stage Plots
  • Survival Analysis
  • Correlation Analysis
  • Differential Expression Analysis
  • PCA

Expression Profile :

進入首頁,有個文本框,你可以選擇輸入基因名,Entrez ID或者 Ensembl ID

以gene GAPDH 為例,

  • 你可以查看基因的在各器官的表達,像這樣:
profile_body
  • 也可以查看不同癌癥中病人該基因的表達量(紅色是癌癥樣本,綠色是對應的癌旁樣本),這張圖片是可以自定義下載的,在后面會講
profile_TPM_dots

大家這里注意一個問題,縱坐標是什么,是TPM,這是一種優(yōu)于RPKM的表達定量方法,由于一個樣本中所有基因的TPM和是1,相當于某基因占所有基因表達量的比例,所以可以用于不同組織之間的比較。而其他的FPKM,RPKM不能用于不同組織間的比較

  • 還可以使用較為常見的柱狀圖為呈現:
profile_bar

盡管這個bar圖可以下載,我們還是無法自由定義圖片的長寬和顏色等,可能達不到放文章的要求,不如自己拿到數據自己畫,那么數據在哪呢?
他的作圖原理是服務器把基因相關的數據傳到瀏覽器,瀏覽器通過plotly的js代碼作圖 (js作圖一般都是可以縮放,拖拽,選區(qū)的),所以數據就在瀏覽器里,怎么獲取呢?

你把鼠標放在bar圖內部,右擊,應該會有一個 View frame source,單擊,你就可以獲得這個frame的源代碼

bar_source

你可以使用origin或者其他你順手的軟件,自己作圖咯! 如果你還不知道怎么使用origin,下面是我前期的文章,可以簡單參考 Origin科研繪圖 http://www.itdecent.cn/p/febf31d6b1f6

  • 該頁面的最后是一張表,是與該基因表達有相關性的基因列表,PCC列是pearson相關系數(Pearson Correlation Coefficient). 相似的表達可能預示著基因之間有相近的功能
PCC

TPM 散點圖 獲取 (Profile)

剛才我說,不同癌癥中病人該基因的表達量散點圖可以下載,但不在剛才的頁面下。在這個頁面的開頭 有Expression DIY - Profile ,他不僅提供下載,居然還可以自定義要繪制的散點圖的基因和癌癥種類,貼心

PS:

  • svg是一種無損的可縮放矢量圖形,瀏覽器打開,至于怎么轉化為位圖文件,眾里尋他請百度。
  • svg作為一個矢量圖,其實本質貌似和html代碼很像,大家可以F12獲取圖片背后的數據
profile_dot_source

這里面的cy就是每個病人的基因表達量,想自己畫圖的可以取用(并不建議)

Boxplots:

boxplot,能提供了某個基因在不同癌癥中的表達量的數據,這個網站有兩種方法可以進入boxplot頁面

  1. 在首頁,輸入的文本框下面有boxplot
  2. 在剛才的expression profile 頁面 開頭 有Expression DIY - boxplot

進入頁面后,可以指定基因和不同的癌癥數據

下圖是GAPDH在乳腺癌和卵巢癌的轉錄組表達

boxplot

數據和之前的barplot和散點圖很像。但這個圖提供直接下載,還計算了p值

p 星星數 標志
0.01 < p < 0.05 一顆星 *
0.001 < p < 0.01 兩顆星 **
p < 0.001 三顆星 ***

如果對p值還不清楚的小伙伴,請移步往期文章,了解統(tǒng)計的魅力吧 假設檢驗 以及 qPCR數據處理應用 http://www.itdecent.cn/p/939832aed739

ps: GAPDH(甘油醛-3-磷酸脫 氫酶 ) 是參與糖酵解的一 種關鍵酶, 是常用的內參,在癌癥中,內參的表達都上調了這么多,如此顯著,可見qPCR時對內參的調平是相當重要的,而內參的變化這么大,是不是也側面反映,qPCR不能用于不同樣本/組織間的對比呢,歡迎大家討論

Stage Plots

能提供了某個基因在癌癥的不同階段的表達量的數據,和boxplot一樣,也有兩種方法可以進入頁面,stageplot使用的這種圖其實是boxplot 和 violin plot的合體,violin plot它可以展示出數據在Y軸上的density,形似violin而得名,如果該階段的基因有差異表達,那么該基因也許與癌癥進展有關。

GAPDH在乳腺癌和卵巢癌中不同階段的轉錄組表達

stage plot

多基因的熱圖

Expression DIY 的最后一項,是繪制不同基因在不同的癌癥中的表達量的熱圖,這個圖也是plotly畫的,所以他的原始數據,你也可以圖中右擊 view frame source 取得

heatmap

這圖真心不好看,大家可以取出數據,放Excel里,用條件格式畫,
方法我以前講過,這里有 直通車http://www.itdecent.cn/p/60eed1bcbc42

Survival Analysis

生存分析的這個圖,學名叫 Kaplan Meier plot (KM plot)。在survival頁面下,可以定義基因,癌癥,OS/DFS,cutoff等。

根據cutoff,會把病人分成兩群, survival plot 可以比較這兩群病人的生存是否有顯著差異。在醫(yī)學研究中非常有用。

乳腺癌中GAPDH高/低表達病人的OS生存情況

KM plot

他提供兩種生存分析:
OS表示overall survival,就是病人無論什么原因死亡都算作死亡。
DFS表示 disease Free Survival,就是病人疾病復發(fā)或死亡都算作死亡。DFS比OS更加注重癌癥的復發(fā)。
圖中的其他數據的解釋,這里篇幅有限,暫不解釋。

生存基因的無中生有
有時候,我們可能并沒有預先就有一個感興趣的基因,而只是想找出某種癌癥中所有有顯著預后能力的基因,這時,可以使用,Survival Analysis 下的 Most Differential Survival Gene,他會返回一個基因列表,包含所有顯著預后基因。

Correlation Analysis

這個就是之前的Pearson相關性,Similar頁面只會返回top correlated genes, 如果需要找到指定的兩個基因之間的PCC, 去correlation頁面

Differential Expression Analysis

來到了最最經典的差異表達分析,可以分析不同癌癥癌組織和正常組織間的差異基因,他會返回一個表,和一張圖。這個圖是差異基因在染色體上的位置,表是差異基因數據。

DE

好消息,好消息
如果你去這個網站首頁,可以看到有一個GEPIA2(test),這里面提供了自己上傳轉錄組的表達量文件,他幫你分析差異基因的功能,真的是香氣四溢。

PCA

PCA的全稱是 Principal Component Analysis,是一種降維算法, 簡單說來,他就是把高維數據投影到低維,并且做到程度保留數據的整體特征,如圖,

PCA最直觀的好處就是你可以把你的數據給畫出來了,
比如,原來我有100個基因,10個樣本,100 * 10 的矩陣,但是我怎么畫出來呢,我們知道這10個樣本之間,哪些比較接近,哪些相差很大呢? PCA就可以辦到

我們進入PCA頁面,(由于不知道什么問題,這個頁面抽風了,我用的GEPIA2的PCA - Dimensionality Reduction)
使用默認基因,選擇 BRCA Normal、BRCA Tumor,這個數據畫在2維平面如圖:

PCA

PC1就是降維后的第一維,PC2 是第二維,我們可以明顯的看到Tumor在一起,Normal樣本在一起,也能側面說明,我們選的這個基因(這里是默認基因),在這兩種樣本中,差異表達了,這些基因有區(qū)分癌癥和正常樣本的能力。

2020-04-07

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 隨著公共數據庫的建立和開放,越來越多的研究者可以接觸到測序數據,非常適合想我們這種“三無”研究者(無課題,無經費,...
    墨墨如閱讀 34,170評論 5 49
  • 以下是B站生信技能樹GEO數據庫挖掘的課程筆記 主要內容及學習目的: 介紹GEO數據庫:了解數據存放位置; 介紹G...
    黃晶_id閱讀 50,702評論 66 386
  • 距離我的父親失明第一天已14年整 圖/一一 文/一一 獲取授權
    JHC閱讀 250評論 2 5
  • 簡書給我混濁的生活照來幾縷陽光,為浮躁的自己帶來幾分恬靜,也讓自己深知抓不住就要空耗掉的光陰變得有些意義...
    垃圾扁鵲閱讀 208評論 0 1
  • (為緩解學校門口高峰時段交通擁堵問題,學校決定面向社會招募一批志愿者組建“護學隊”。請擬寫一份招募啟事。 要求:目...
    熏莉閱讀 656評論 0 0

友情鏈接更多精彩內容