人妻少妇Av在线,业洲AV性,亚洲色图欧美在线

GEO數(shù)據(jù)庫挖掘（2）--快速鎖定目標(biāo)數(shù)據(jù)

原創(chuàng)?小獵豹?科研貓?2019-03-02

在上一期的推文GEO數(shù)據(jù)庫挖掘（1）--SCI文章速成?，我們講解了關(guān)于GEO數(shù)據(jù)庫的背景知識，想必大家也了解了GEO是一個非常實用和權(quán)威的基因表達(dá)譜數(shù)據(jù)庫。那么如何檢索自己想要的數(shù)據(jù)呢？

GEO中的數(shù)據(jù)千千萬萬條，能夠準(zhǔn)確篩選出符合我們研究方向的數(shù)據(jù)至關(guān)重要，是整個數(shù)據(jù)挖掘工作的核心和基礎(chǔ)。如果沒有合適的數(shù)據(jù)，后續(xù)的所有分析都是紙上談兵。那么今天就帶領(lǐng)大家來進(jìn)行實戰(zhàn)演練，學(xué)習(xí)一下如何從GEO中找到我們想要的數(shù)據(jù)。為了讓演練更加貼近實際，我們先設(shè)定一個問題，然后逐步帶領(lǐng)大家進(jìn)行操作。

研究課題：比較肝癌及正常肝組織的表達(dá)譜差異

實戰(zhàn)操作

多圖預(yù)警，輕點圖片，查看高清大圖原文鏈接

Step1：查找

打開GEO官方網(wǎng)頁，在搜索框中輸入“Hepatocellular carcinoma”，并點擊Search（紅框所示），結(jié)果如下圖所示，出現(xiàn)了一個下拉菜單，一個是“results in GEO DataSets”，另一個是“results in GEO Profiles”，我們選擇上面一個（綠框所示）。

Step2：過濾

點擊上面的檢索結(jié)果后，然后我們會進(jìn)入到GEO DataSets的結(jié)果頁面，如下圖所示。在這里面有3萬多個條目匹配到我們輸入的關(guān)鍵詞“Hepatocellular carcinoma”，但是這么多條目我不可能一個個看過來啊，該怎么辦呢？

我們注意到，在結(jié)果頁面中的左邊欄和右邊欄有可供篩選的篩選條件。這些篩選條件可以幫我們快速過濾掉無用信息，并準(zhǔn)確地指向我們需要的數(shù)據(jù)集。那么有哪些是我們常用的篩選條件呢？

Entry type：即檢索出來的結(jié)果類型，包括DataSet、Series、Sample、Paltform等，這里我們選擇Series。（不知道這幾個名詞概念的，自行查閱上一篇文章：GEO數(shù)據(jù)庫挖掘（1）--SCI文章速成）

Study type：研究類型，也即數(shù)據(jù)類型，這里面內(nèi)容就非常多了，因為我們做的事表達(dá)譜，所以常用的一般就是“Expression profiling by array“或者“Non-coding RNA profiling by array”。點擊下方的”Customize”可以查看更多數(shù)據(jù)類型。

Attribue name：其實就是樣本來源，或者樣本類型，這里我一般都是選擇“tissue”。

Organism: 在右側(cè)邊欄中可以選擇物種，這里我們根據(jù)自己的研究目的自行篩選，我這里就選擇“Homo sapiens”。

選定好篩選條件之后，可以發(fā)現(xiàn)，原先的結(jié)果從3萬多條變成了240條，這里面基本就是我們想要的結(jié)果了。那么問題又來了，在這240個里面，怎么知道到底哪個才是我最終需要的呢？或者我們在寫文章的時候如何選定最為重要的數(shù)據(jù)集呢？最好的辦法只有：點擊詳情，逐個查看。

可能有人會覺得這個方法太笨。其實不然。因為我們做的是數(shù)據(jù)挖掘的文章，這里面的“數(shù)據(jù)”就是我們的研究對象，如果不能選定足夠大的樣本量，我們在分析數(shù)據(jù)的過程中就會漏掉一些重要的信息，或者editor直接就會覺得你的文章意義不大。那為了避免漏掉數(shù)據(jù)集的情況發(fā)生，當(dāng)數(shù)據(jù)檢索進(jìn)行到這一步的時候，后續(xù)我一般都會逐個去查看每個數(shù)據(jù)集的詳情，并判斷是否符合我的研究目的。

Step3：挑選

點擊打開每個data series的詳情，我們以檢索條目中的第5條為例（因為這個數(shù)據(jù)集的數(shù)據(jù)較多，共有198個樣本），如下圖所示，點擊進(jìn)入到該研究的詳細(xì)介紹頁面。

在詳情頁面中，有幾個需要我們注意的地方：

數(shù)據(jù)集編號，在右上角有顯示（紅框），這個編號很重要，我們寫文章的時候一般在Methods & Material中會提及。

?數(shù)據(jù)集介紹，如下圖紅框所示，這個里面包含了關(guān)于數(shù)據(jù)集的詳細(xì)介紹及實驗設(shè)計思路，讀了這兩段之后我們就知道這個數(shù)據(jù)集是不是我們想要的了。

檢測平臺，即Platform號碼，一般是GPLxxxx的格式，這個里面包含了檢測平臺的基因注釋信息，也很重要。

樣本信息，在Samples（紅框所示）中會顯示樣本總量及每個樣本的編號，默認(rèn)是折疊起來的，點擊“More”可以顯示完整。同時，如果要查看每個樣本的詳細(xì)臨床信息，點擊樣本的GSMxxxx編號即可。

此外，還有一個需要我們知道的就是一個分析工具—GEO2R，這個工具是GEO官方開發(fā)的使用R語言來進(jìn)行差異表達(dá)分析的工具，十分好用，通過GEO2R可以快速便捷地篩選出我們想要的差異表達(dá)基因。

當(dāng)然僅僅進(jìn)行差異表達(dá)分析，發(fā)文章是遠(yuǎn)遠(yuǎn)不夠的，后面的文章，我們會繼續(xù)給大家講解GEO2R的使用以及我們自行開發(fā)的一整套GEO數(shù)據(jù)挖掘自動化工具，賣個關(guān)子，敬請期待喲~

本期重點回顧（Take home message）：

如何在GEO中檢索并篩選目標(biāo)數(shù)據(jù)集，以及數(shù)據(jù)集中需要注意的關(guān)鍵信息。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

GEO數(shù)據(jù)庫挖掘（2）--快速鎖定目標(biāo)數(shù)據(jù)

GEO數(shù)據(jù)庫挖掘（2）--快速鎖定目標(biāo)數(shù)據(jù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

GEO數(shù)據(jù)庫挖掘（2）--快速鎖定目標(biāo)數(shù)據(jù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av