肖恩打算搜羅現有的提供生物信息相關的數據庫、分析網站和工具,讓不會代碼的小伙伴們,也能在科研過程中,享受生物信息學帶來的高效和風騷。
Bioinformatics is click away!
分類
渣渣本渣的研究主要集中在癌癥生物標志物,雖然渣到不能在渣,也積累一些易上手的資源,適合做濕實驗的同學把玩把玩(FYI,寫代碼的叫干實驗,分子實驗、細胞實驗、動物實驗等都是濕實驗)。也由于領域的限制,對生物信息學的其他領域不太清楚,煩請看官見諒!
在本人常用的工具中,主要有以下幾類:
- 基因注釋數據庫(NCBI,Ensembl,KEGG,String,Oncomine,Genecard)
- 基因表達數據庫(TCGA,GEO,METABRIC,GTEx, PHA)
- 序列比對(pair-wise alignment,blast)
- 生存分析 (KM-plotter)
- 表達分析(GEPIA, GEO, cbioportal, firehouse)
- 基因功能分析(Metascape, David, GeneMinia)
...
今天主要來講講這個GEPIA,其他網站以后慢慢更新
GEPIA 介紹
為什么先將這個網站呢?
因為這是目前為止,我發(fā)現的,最簡單,功能非常豐富的一個網站,而且訪問速度也快,是北大一個實驗室搭建的,是無碼生信家族中最福的音。
GEPIA 大名為 Gene Expression Profiling Interactive Analysis (http://gepia.cancer-pku.cn/),主要介紹以下功能:(這是2020年4月的情況,該網站還在不斷更新)
- Expression Profile
- Boxplots
- Stage Plots
- Survival Analysis
- Correlation Analysis
- Differential Expression Analysis
- PCA
Expression Profile :
進入首頁,有個文本框,你可以選擇輸入基因名,Entrez ID或者 Ensembl ID
以gene GAPDH 為例,
- 你可以查看基因的在各器官的表達,像這樣:

- 也可以查看不同癌癥中病人該基因的表達量(紅色是癌癥樣本,綠色是對應的癌旁樣本),這張圖片是可以自定義下載的,在后面會講

大家這里注意一個問題,縱坐標是什么,是TPM,這是一種優(yōu)于RPKM的表達定量方法,由于一個樣本中所有基因的TPM和是1,相當于某基因占所有基因表達量的比例,所以可以用于不同組織之間的比較。而其他的FPKM,RPKM不能用于不同組織間的比較
- 還可以使用較為常見的柱狀圖為呈現:

盡管這個bar圖可以下載,我們還是無法自由定義圖片的長寬和顏色等,可能達不到放文章的要求,不如自己拿到數據自己畫,那么數據在哪呢?
他的作圖原理是服務器把基因相關的數據傳到瀏覽器,瀏覽器通過plotly的js代碼作圖 (js作圖一般都是可以縮放,拖拽,選區(qū)的),所以數據就在瀏覽器里,怎么獲取呢?
你把鼠標放在bar圖內部,右擊,應該會有一個 View frame source,單擊,你就可以獲得這個frame的源代碼

你可以使用origin或者其他你順手的軟件,自己作圖咯! 如果你還不知道怎么使用origin,下面是我前期的文章,可以簡單參考 Origin科研繪圖 http://www.itdecent.cn/p/febf31d6b1f6
- 該頁面的最后是一張表,是與該基因表達有相關性的基因列表,PCC列是pearson相關系數(Pearson Correlation Coefficient). 相似的表達可能預示著基因之間有相近的功能

TPM 散點圖 獲取 (Profile)
剛才我說,不同癌癥中病人該基因的表達量散點圖可以下載,但不在剛才的頁面下。在這個頁面的開頭 有Expression DIY - Profile ,他不僅提供下載,居然還可以自定義要繪制的散點圖的基因和癌癥種類,貼心
PS:
- svg是一種無損的可縮放矢量圖形,瀏覽器打開,至于怎么轉化為位圖文件,眾里尋他請百度。
- svg作為一個矢量圖,其實本質貌似和html代碼很像,大家可以F12獲取圖片背后的數據

這里面的cy就是每個病人的基因表達量,想自己畫圖的可以取用(并不建議)
Boxplots:
boxplot,能提供了某個基因在不同癌癥中的表達量的數據,這個網站有兩種方法可以進入boxplot頁面
- 在首頁,輸入的文本框下面有boxplot
- 在剛才的expression profile 頁面 開頭 有Expression DIY - boxplot
進入頁面后,可以指定基因和不同的癌癥數據
下圖是GAPDH在乳腺癌和卵巢癌的轉錄組表達

數據和之前的barplot和散點圖很像。但這個圖提供直接下載,還計算了p值
| p | 星星數 | 標志 |
|---|---|---|
| 0.01 < p < 0.05 | 一顆星 | * |
| 0.001 < p < 0.01 | 兩顆星 | ** |
| p < 0.001 | 三顆星 | *** |
如果對p值還不清楚的小伙伴,請移步往期文章,了解統(tǒng)計的魅力吧 假設檢驗 以及 qPCR數據處理應用 http://www.itdecent.cn/p/939832aed739
ps: GAPDH(甘油醛-3-磷酸脫 氫酶 ) 是參與糖酵解的一 種關鍵酶, 是常用的內參,在癌癥中,內參的表達都上調了這么多,如此顯著,可見qPCR時對內參的調平是相當重要的,而內參的變化這么大,是不是也側面反映,qPCR不能用于不同樣本/組織間的對比呢,歡迎大家討論
Stage Plots
能提供了某個基因在癌癥的不同階段的表達量的數據,和boxplot一樣,也有兩種方法可以進入頁面,stageplot使用的這種圖其實是boxplot 和 violin plot的合體,violin plot它可以展示出數據在Y軸上的density,形似violin而得名,如果該階段的基因有差異表達,那么該基因也許與癌癥進展有關。
GAPDH在乳腺癌和卵巢癌中不同階段的轉錄組表達

多基因的熱圖
Expression DIY 的最后一項,是繪制不同基因在不同的癌癥中的表達量的熱圖,這個圖也是plotly畫的,所以他的原始數據,你也可以圖中右擊 view frame source 取得

這圖真心不好看,大家可以取出數據,放Excel里,用條件格式畫,
方法我以前講過,這里有 直通車http://www.itdecent.cn/p/60eed1bcbc42
Survival Analysis
生存分析的這個圖,學名叫 Kaplan Meier plot (KM plot)。在survival頁面下,可以定義基因,癌癥,OS/DFS,cutoff等。
根據cutoff,會把病人分成兩群, survival plot 可以比較這兩群病人的生存是否有顯著差異。在醫(yī)學研究中非常有用。
乳腺癌中GAPDH高/低表達病人的OS生存情況

他提供兩種生存分析:
OS表示overall survival,就是病人無論什么原因死亡都算作死亡。
DFS表示 disease Free Survival,就是病人疾病復發(fā)或死亡都算作死亡。DFS比OS更加注重癌癥的復發(fā)。
圖中的其他數據的解釋,這里篇幅有限,暫不解釋。
生存基因的無中生有
有時候,我們可能并沒有預先就有一個感興趣的基因,而只是想找出某種癌癥中所有有顯著預后能力的基因,這時,可以使用,Survival Analysis 下的 Most Differential Survival Gene,他會返回一個基因列表,包含所有顯著預后基因。
Correlation Analysis
這個就是之前的Pearson相關性,Similar頁面只會返回top correlated genes, 如果需要找到指定的兩個基因之間的PCC, 去correlation頁面
Differential Expression Analysis
來到了最最經典的差異表達分析,可以分析不同癌癥癌組織和正常組織間的差異基因,他會返回一個表,和一張圖。這個圖是差異基因在染色體上的位置,表是差異基因數據。

好消息,好消息:
如果你去這個網站首頁,可以看到有一個GEPIA2(test),這里面提供了自己上傳轉錄組的表達量文件,他幫你分析差異基因的功能,真的是香氣四溢。
PCA
PCA的全稱是 Principal Component Analysis,是一種降維算法, 簡單說來,他就是把高維數據投影到低維,并且做到程度保留數據的整體特征,如圖,
PCA最直觀的好處就是你可以把你的數據給畫出來了,
比如,原來我有100個基因,10個樣本,100 * 10 的矩陣,但是我怎么畫出來呢,我們知道這10個樣本之間,哪些比較接近,哪些相差很大呢? PCA就可以辦到
我們進入PCA頁面,(由于不知道什么問題,這個頁面抽風了,我用的GEPIA2的PCA - Dimensionality Reduction)
使用默認基因,選擇 BRCA Normal、BRCA Tumor,這個數據畫在2維平面如圖:

PC1就是降維后的第一維,PC2 是第二維,我們可以明顯的看到Tumor在一起,Normal樣本在一起,也能側面說明,我們選的這個基因(這里是默認基因),在這兩種樣本中,差異表達了,這些基因有區(qū)分癌癥和正常樣本的能力。
2020-04-07