GEO(GENE EXPRESSION OMNIBUS),https://www.ncbi.nlm.nih.gov/geo/,由美國(guó)國(guó)立生物技術(shù)信息中心NCBI創(chuàng)建維護(hù)的,是個(gè)公開的基因數(shù)據(jù)庫(kù),包含了測(cè)序和芯片數(shù)據(jù)。在前面,我們介紹過利用GEO數(shù)據(jù)庫(kù)進(jìn)行芯片數(shù)據(jù)檢索,今天我們?cè)龠M(jìn)一步細(xì)化,如何利用GEO數(shù)據(jù)庫(kù)下載信息。GEO數(shù)據(jù)包括五種,platforms、samples、series、datasets和profiles。
其中原始數(shù)據(jù)包括GPL、GSM和GSE。
GPL(GEOPlatform):平臺(tái)信息,由芯片或測(cè)序公司提供,含有芯片或測(cè)序平臺(tái)的描述信息,芯片還包含了其注釋信息,每個(gè)平臺(tái)列出了使用該平臺(tái)的所有樣本和系列。
GSM(GEO?Sample):樣本信息,記錄單個(gè)樣本的生物學(xué)信息,處理流程及該樣本的原始數(shù)據(jù)(芯片或測(cè)序)。注意的是每個(gè)樣本數(shù)據(jù)僅對(duì)應(yīng)一個(gè)平臺(tái)。
GSE(GSESeries):系列,將一項(xiàng)研究中所關(guān)聯(lián)的GSM信息集合在一起,含研究名稱、設(shè)計(jì)、概要信息。與GSM不同的是,GSE可以包含多個(gè)平臺(tái)以及子系列,一個(gè)樣本可以出現(xiàn)在多個(gè)系列中。
處理后的數(shù)據(jù)包含GDS和GEO Profiles。
GDS(GEO?DataSet):經(jīng)挑選整理的數(shù)據(jù)集記錄,如進(jìn)行背景校正、均一化處理。每個(gè)GDS對(duì)應(yīng)一個(gè)平臺(tái)。
GEO?profiles:來源與GDS數(shù)據(jù),可以展現(xiàn)單個(gè)基因表達(dá)水平。
GEO測(cè)序文件存儲(chǔ)形式包含SOFT、MINiML、Series Matrix files以及Supplementary files。
SOFT和MINiML存儲(chǔ)的內(nèi)容相同,但格式不同。SOFT為ASCII格式,MINiML為XML格式。Series Matrix files則以制表符為分隔的包含每個(gè)樣本具體數(shù)值的文本文件,包含GSM和GSE。Supplementary files列出GSM原始數(shù)據(jù)或一些樣本臨床信息。
接下來我們到了我們演示環(huán)節(jié),首先進(jìn)入GEO官網(wǎng)。官網(wǎng)首頁(yè)含有GEO數(shù)據(jù)庫(kù)的概要,一些工具菜單,GEO數(shù)據(jù)庫(kù)概況以及對(duì)于上傳者的操作指南。

我們?cè)贕EO首頁(yè)搜索欄搜索自己待檢索的關(guān)鍵詞,如“PD-1”,則會(huì)顯示GEO?Datasets以及GEO?Profiles中的結(jié)果,如需看基因表達(dá)譜,則選擇GEO?Profiles,如果其他信息,如GSE、GSM和GPL等。我們之前也介紹過,在NCBI界面中我們也可以快速進(jìn)入GEO?Datasets以及GEO?Profiles。

這里我們現(xiàn)介紹GEO?Profiles,選擇Profiles,則出現(xiàn)以下界面,我們可以直接點(diǎn)擊圖形,查看表達(dá)譜,右側(cè)按鈕“Download profile data”可以下載該信息。

同樣,我們以pdcd1-Autoimmune model:CD4+ T?cells為例,點(diǎn)擊該右側(cè)表達(dá)譜,出現(xiàn)下圖。我們可以看到該數(shù)據(jù)集是“GDS2460”,物種來源為“Mus musculus”。分組信息為兩組,一組“wild type”,另一組為“sanroque”。兩組表達(dá)“sanroque”高于“wild type”。另外左側(cè)紅色縱坐標(biāo)數(shù)據(jù)對(duì)應(yīng)“count”,右邊藍(lán)色則為“percentile rank with the sample”?;疑綁K對(duì)應(yīng)的是GSM***,點(diǎn)擊它則可以查詢到該樣本信息,如下圖。


下拉到底部,可以下載對(duì)應(yīng)的信息。其中CEL格式對(duì)應(yīng)Affymetrix芯片的原始數(shù)據(jù)。

點(diǎn)擊“Download profile data”,可以下載表達(dá)信息,txt格式。我們可以看到GDS數(shù)據(jù)集是GDS3138,以及GSM信息,平臺(tái)信息等。下載后可以利用EXCEl打開,或者利用其他分析軟件處理。

下載GEO?datasets信息:以搜索“PD-1”和“l(fā)ung cancer”為例,通過概要選擇自己需要的信息。我們可以看到Datasets(2),Series(311),samples(811),platforms(2)。

GPL對(duì)應(yīng)數(shù)據(jù)包含annotation(注釋信息),主要用于探針名和基因名切換。SOFT、MINiML格式包含GSM和GSE信息,比較大,一般不直接用于分析。

下拉到底部,我們可以看到該GPL的注釋信息,點(diǎn)擊“Download full table”,可以下載注釋信息。

點(diǎn)擊samples對(duì)應(yīng)的GSM**,可以查詢到樣本信息,拉到底部,我們可以通過補(bǔ)充文件看到該樣本的芯片表達(dá)數(shù)據(jù)。如“GSM4066172_KTM001_1392179_ClariomSmouse.CEL.gz”,表示gzip壓縮的CEL格式文件,GSM4066172為樣本編號(hào),KTM001_1392179為樣本分組信息

GSE數(shù)據(jù),我們之前也介紹過,同樣點(diǎn)擊GSE***,下拉到底部,在“Download family”中有三個(gè)格式數(shù)據(jù),SOFT、MINiML和Series Matrix file,前面兩個(gè)為涉及到樣本的信息和平臺(tái)數(shù)據(jù),內(nèi)容比較大,我們通常選擇Series Matrix file數(shù)據(jù)下載進(jìn)行分析,該類數(shù)據(jù)經(jīng)過矩陣化處理。同樣,我們可以在補(bǔ)充文件中下載原始數(shù)據(jù),http下載所有信息,或者通過custom下載部分樣本信息。

值得注意的是,一個(gè)GSE可以按照平臺(tái)形成多個(gè)Series Matrix file。
除了我們通過網(wǎng)站直接下載相應(yīng)數(shù)據(jù)庫(kù)信息,還可以通過ftp下載,ftp://ftp.ncbi.nlm.nih.gov/geo/。
datasets/, platforms/ , samples/, series/,分別對(duì)應(yīng)4 種數(shù)據(jù)類型 GDS、GPL、GSM 和 GSE。將數(shù)據(jù)編號(hào)的最后 3 位數(shù)字替換為 nnn。然后緊接數(shù)據(jù)編號(hào),就可以直達(dá)文件的 ftp 存儲(chǔ)頁(yè)面。