GEO數(shù)據(jù)庫挖掘(2)--快速鎖定目標(biāo)數(shù)據(jù)
原創(chuàng)?小獵豹?科研貓?2019-03-02
在上一期的推文GEO數(shù)據(jù)庫挖掘(1)--SCI文章速成?,我們講解了關(guān)于GEO數(shù)據(jù)庫的背景知識,想必大家也了解了GEO是一個非常實用和權(quán)威的基因表達(dá)譜數(shù)據(jù)庫。那么如何檢索自己想要的數(shù)據(jù)呢?
GEO中的數(shù)據(jù)千千萬萬條,能夠準(zhǔn)確篩選出符合我們研究方向的數(shù)據(jù)至關(guān)重要,是整個數(shù)據(jù)挖掘工作的核心和基礎(chǔ)。如果沒有合適的數(shù)據(jù),后續(xù)的所有分析都是紙上談兵。那么今天就帶領(lǐng)大家來進(jìn)行實戰(zhàn)演練,學(xué)習(xí)一下如何從GEO中找到我們想要的數(shù)據(jù)。為了讓演練更加貼近實際,我們先設(shè)定一個問題,然后逐步帶領(lǐng)大家進(jìn)行操作。
研究課題:比較肝癌及正常肝組織的表達(dá)譜差異
實戰(zhàn)操作
多圖預(yù)警,輕點圖片,查看高清大圖原文鏈接
Step1:查找
打開GEO官方網(wǎng)頁,在搜索框中輸入“Hepatocellular carcinoma”,并點擊Search(紅框所示),結(jié)果如下圖所示,出現(xiàn)了一個下拉菜單,一個是“results in GEO DataSets”,另一個是“results in GEO Profiles”,我們選擇上面一個(綠框所示)。
2
Step2:過濾
點擊上面的檢索結(jié)果后,然后我們會進(jìn)入到GEO DataSets的結(jié)果頁面,如下圖所示。在這里面有3萬多個條目匹配到我們輸入的關(guān)鍵詞“Hepatocellular carcinoma”,但是這么多條目我不可能一個個看過來啊,該怎么辦呢?
我們注意到,在結(jié)果頁面中的左邊欄和右邊欄有可供篩選的篩選條件。這些篩選條件可以幫我們快速過濾掉無用信息,并準(zhǔn)確地指向我們需要的數(shù)據(jù)集。那么有哪些是我們常用的篩選條件呢?
Entry type:即檢索出來的結(jié)果類型,包括DataSet、Series、Sample、Paltform等,這里我們選擇Series。(不知道這幾個名詞概念的,自行查閱上一篇文章:GEO數(shù)據(jù)庫挖掘(1)--SCI文章速成)
Study type:研究類型,也即數(shù)據(jù)類型,這里面內(nèi)容就非常多了,因為我們做的事表達(dá)譜,所以常用的一般就是“Expression profiling by array“或者“Non-coding RNA profiling by array”。點擊下方的”Customize”可以查看更多數(shù)據(jù)類型。
Attribue name:其實就是樣本來源,或者樣本類型,這里我一般都是選擇“tissue”。
Organism: 在右側(cè)邊欄中可以選擇物種,這里我們根據(jù)自己的研究目的自行篩選,我這里就選擇“Homo sapiens”。
選定好篩選條件之后,可以發(fā)現(xiàn),原先的結(jié)果從3萬多條變成了240條,這里面基本就是我們想要的結(jié)果了。那么問題又來了,在這240個里面,怎么知道到底哪個才是我最終需要的呢?或者我們在寫文章的時候如何選定最為重要的數(shù)據(jù)集呢?最好的辦法只有:點擊詳情,逐個查看。
可能有人會覺得這個方法太笨。其實不然。因為我們做的是數(shù)據(jù)挖掘的文章,這里面的“數(shù)據(jù)”就是我們的研究對象,如果不能選定足夠大的樣本量,我們在分析數(shù)據(jù)的過程中就會漏掉一些重要的信息,或者editor直接就會覺得你的文章意義不大。那為了避免漏掉數(shù)據(jù)集的情況發(fā)生,當(dāng)數(shù)據(jù)檢索進(jìn)行到這一步的時候,后續(xù)我一般都會逐個去查看每個數(shù)據(jù)集的詳情,并判斷是否符合我的研究目的。
3
Step3:挑選
點擊打開每個data series的詳情,我們以檢索條目中的第5條為例(因為這個數(shù)據(jù)集的數(shù)據(jù)較多,共有198個樣本),如下圖所示,點擊進(jìn)入到該研究的詳細(xì)介紹頁面。
在詳情頁面中,有幾個需要我們注意的地方:
數(shù)據(jù)集編號,在右上角有顯示(紅框),這個編號很重要,我們寫文章的時候一般在Methods & Material中會提及。
?數(shù)據(jù)集介紹,如下圖紅框所示,這個里面包含了關(guān)于數(shù)據(jù)集的詳細(xì)介紹及實驗設(shè)計思路,讀了這兩段之后我們就知道這個數(shù)據(jù)集是不是我們想要的了。
檢測平臺,即Platform號碼,一般是GPLxxxx的格式,這個里面包含了檢測平臺的基因注釋信息,也很重要。
樣本信息,在Samples(紅框所示)中會顯示樣本總量及每個樣本的編號,默認(rèn)是折疊起來的,點擊“More”可以顯示完整。同時,如果要查看每個樣本的詳細(xì)臨床信息,點擊樣本的GSMxxxx編號即可。
此外,還有一個需要我們知道的就是一個分析工具—GEO2R,這個工具是GEO官方開發(fā)的使用R語言來進(jìn)行差異表達(dá)分析的工具,十分好用,通過GEO2R可以快速便捷地篩選出我們想要的差異表達(dá)基因。
當(dāng)然僅僅進(jìn)行差異表達(dá)分析,發(fā)文章是遠(yuǎn)遠(yuǎn)不夠的,后面的文章,我們會繼續(xù)給大家講解GEO2R的使用以及我們自行開發(fā)的一整套GEO數(shù)據(jù)挖掘自動化工具,賣個關(guān)子,敬請期待喲~
本期重點回顧(Take home message):
如何在GEO中檢索并篩選目標(biāo)數(shù)據(jù)集,以及數(shù)據(jù)集中需要注意的關(guān)鍵信息。