之前我們已經(jīng)和大家分享過如何上傳GEO數(shù)據(jù),同樣,我們也可以從公共數(shù)據(jù)庫下載其他研究者的數(shù)據(jù)進行分析,探尋自己感興趣的研究方向。這種通過對現(xiàn)有公共數(shù)據(jù)挖掘數(shù)據(jù)進行分析的研究方式目前正是生物信息分析的熱門領(lǐng)域。GEO數(shù)據(jù)庫儲存著海量的二代測序數(shù)據(jù)(特別是轉(zhuǎn)錄數(shù)據(jù))和芯片數(shù)據(jù),就像一座“藏寶山”,我們可以通過挖掘前人研究數(shù)據(jù),提取相關(guān)研究結(jié)果,構(gòu)建自身研究方向的基礎(chǔ)架構(gòu),再輔以“濕實驗”驗證或針對性的其他組學測序分析,最后解決自身研究方向的復雜問題。那么接下來小諾將為大家?guī)砣椎腉EO數(shù)據(jù)挖掘系列教程,包括五步:
搜尋數(shù)據(jù)集及下載數(shù)據(jù) 差異分析--->差異表達基因 --->五大數(shù)據(jù)庫注釋--->蛋白互作等網(wǎng)絡(luò)和通路注釋

今天先為大家分享第一步“數(shù)據(jù)下載”,以便后續(xù)挖掘感興趣的基因及構(gòu)建通路。
首先我們可以需要先尋找貼合我們研究方向的論文所使用的數(shù)據(jù)集,下載里面的GPL文件和表達矩陣“series matrix”做基因的表達分析;再依據(jù)包含樣本生存數(shù)據(jù)的臨床特征數(shù)據(jù)集,去做生存性分析。
在進入GEO數(shù)據(jù)庫官網(wǎng)前,需要先理解一下GEO的數(shù)據(jù)編號含義:

一篇文章可能包含至少一個GSE數(shù)據(jù)集,一個GSE數(shù)據(jù)集里面可能包含至少一個GSM樣本。多個研究的GSM樣本根據(jù)研究目的會整合為一個GDS,不過GDS運用的很少。而每個數(shù)據(jù)集都有著對應的芯片平臺,就是GPL。
通過網(wǎng)頁下載:
首先,登錄GEO官網(wǎng)?https://www.ncbi.nlm.nih.gov/geo/,在右側(cè)的搜索框輸入一個GSE號,我們以gse21933為例,在搜索欄輸入后點search進行檢索。

檢索后會進入Accession Display界面,里面包含著這個GSE數(shù)據(jù)的基本信息,如:標題、物種、研究概要、作者、樣本描述、測序平臺等等,當然還有我們最需要的原始數(shù)據(jù)。

上圖可知道,這組數(shù)據(jù)包含的是肺癌與正常組織的基因表達圖譜,我們想從這組數(shù)據(jù)中尋找差異基因,需要三個文件:原始文件、表型文件、注釋文件。
1.原始文件,這里面儲存的是每個樣本中各個基因的表達量頁面底部會提供原始數(shù)據(jù),如圖所示,點擊http下載即可,文件是tar格式,下載下來以后需要解壓縮。

2.表型文件,該文件備注每個樣本是屬于正常組還是癌癥組,想要比較腫瘤和正常樣本的區(qū)別,我們需要知道每組里面都是樣本類型;

這里存儲的是樣本基因表達量信息;Series Matrix File,(基因表達量矩陣)

3.注釋文件,因為原始數(shù)據(jù)處理得到的差異基因是以探針號表示的,我們需要知道這些探針號代表的基因是什么,這就需要用到注釋文件。

有了這三類數(shù)據(jù)后,就相當于獲得了 “烹飪”的原材料,之后便可以對這組數(shù)據(jù)進行“煎炒炸燉”,依據(jù)自己的需求和研究方向進行個性化的數(shù)據(jù)挖掘。
通過R包下載:
通常來說,數(shù)據(jù)挖掘之所以叫“挖掘”是因為需要在海量的數(shù)據(jù)內(nèi),通過檢索收集才可以整合出可用信息從而滿足我們研究目標。因此這里將介紹一項用于GEO數(shù)據(jù)下載的利器GEOquery,它是由Davis開發(fā)的一款針對下載GEO數(shù)據(jù)庫的R包,目前在R開源網(wǎng)站bio-conductor內(nèi),運用它可以簡單高效的下載所需的GEO數(shù)據(jù)。
如何使用GEOquery下載:

調(diào)用:

getGEO函數(shù)會加載GSE的matrix文件,默認會下載其注釋探針信息,并對表達矩陣中的探針予以注釋,但往往注釋文件比較大,會出現(xiàn)parse保存的問題,所以一般建議把注釋關(guān)掉了:getGPL=F,然后在后續(xù)分析步驟里進行手動注釋。
我們下載了這些數(shù)據(jù),就走完了第一步 “下載數(shù)據(jù)”,大家如果想了解更多后續(xù)個性化分析,請持續(xù)關(guān)注諾禾致源“GEO數(shù)據(jù)挖掘”系列文章,每周一個實用干貨帶您了解上手生信分析。