GEO數(shù)據(jù)庫(kù)-ID轉(zhuǎn)換系列(一)
作者:jzhang
前言:我們都知道很多人在進(jìn)行GEO數(shù)據(jù)庫(kù)挖掘的時(shí)候,首先遇到的第一個(gè)痛點(diǎn)就是探針I(yè)D轉(zhuǎn)換成gene symbol的問(wèn)題,gene symbol因?yàn)楸淮蠹沂煜に缘玫綇V泛采用。針對(duì)此問(wèn)題,我進(jìn)行了一個(gè)總結(jié)貼。
一般ID轉(zhuǎn)換分為以下幾個(gè)辦法:
- 使用GEO數(shù)據(jù)庫(kù)提供的GPL文件
- 金標(biāo)準(zhǔn)當(dāng)然是去基因芯片的廠商的官網(wǎng)直接去下載啦
- 使用bioconductor里面的芯片探針注釋包
- 使用探針序列進(jìn)行序列比對(duì)注釋(以上辦法都不能解決的時(shí)候)
今天我們先介紹如何在GEO官網(wǎng)下載注釋文件
1.GEO官網(wǎng)
我們可以去官方地址進(jìn)行下載:https://www.ncbi.nlm.nih.gov/geo/
下面以GPL570為例子進(jìn)行說(shuō)明,首先進(jìn)入官網(wǎng),在下方窗口數(shù)據(jù)GPL編號(hào)進(jìn)行搜索,
進(jìn)入搜索頁(yè)面。

搜索結(jié)果頁(yè)面:

一般在搜索頁(yè)面都會(huì)有對(duì)注釋文件的表頭的描述,芯片注釋文件內(nèi)部也有,但是很多人容易忽視這個(gè)地方

下面含有下載鏈接:

第二種下載方式,使用ftp地址下載
首先找到ftp地址:https://ftp.ncbi.nlm.nih.gov/geo/

進(jìn)來(lái)之后,我們發(fā)現(xiàn)數(shù)據(jù)都在這里,注釋信息就在platforms:

然后點(diǎn)擊進(jìn)入,根據(jù)編號(hào)GPL570,判斷在GPLnnn目錄下,可以看著這個(gè)命名后面都有3個(gè)n:

然后發(fā)現(xiàn)有三個(gè)文件,https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPLnnn/GPL570/,分別是
annot:含有簡(jiǎn)版的注釋信息文件,一般有一些平臺(tái)是沒(méi)有這個(gè)文件的,文件名字為GPL570.annot.gz
miniml:是xml格式的注釋文件,這個(gè)一般會(huì)被分割成好幾個(gè),文件也都特別大,一般不用
soft:詳細(xì)版本的注釋文件,這個(gè)文件也非常大,如果沒(méi)有annot格式,可以選擇這個(gè),但是下載網(wǎng)速不是很友好,文件名字為GPL570_family.soft.gz

總結(jié)上面的ftp地址特點(diǎn),我們可以發(fā)現(xiàn)一些特征,比如soft格式文件的地址,那么以后知道了GPL標(biāo)號(hào),就可以寫代碼生成ftp下載地址使用迅雷,wget,axel等方式下載啦。
# 以下網(wǎng)址存在一些特點(diǎn)
https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPL15nnn/GPL15207/soft/GPL15207_family.soft.gz
https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPL15nnn/GPL15314/soft/GPL15314_family.soft.gz
https://ftp.ncbi.nlm.nih.gov/geo/platforms/GPLnnn/GPL570/soft/GPL570_family.soft.gz
別著急,現(xiàn)在還有R代碼版本的下載方式,如下
# 設(shè)置下載方式
options('download.file.method.GEOquery'='auto')
options('GEOquery.inmemory.gpl'=FALSE)
# 加載需要用到的R包
library(GEOquery)
library(Biobase)
# Download GPL file, put it in the current directory, and load it:
gpl <- getGEO("GPL570", destdir=".")
colnames(Table(gpl))
head(Table(gpl)[,c(1,10,13)])
probe2symbol <- Table(gpl)[,c(1,13)]
未完待續(xù),我們后面還有其他的下載方式,針對(duì)網(wǎng)速不好,沒(méi)有簡(jiǎn)版注釋文件等方式,學(xué)會(huì)任何一種,你都不用再害怕不會(huì)對(duì)芯片進(jìn)行ID轉(zhuǎn)換啦。
題外話:關(guān)于ID轉(zhuǎn)換,其實(shí)還有一個(gè)很重要的背景知識(shí)需要大家學(xué)習(xí),那就是各種數(shù)據(jù)庫(kù)的ID,如果你不了解,那么除了看到你熟悉的只知道的gene symobl,有其他數(shù)據(jù)庫(kù)的ID可以轉(zhuǎn)換的時(shí)候,你卻不知道(看見(jiàn)了就跟沒(méi)看見(jiàn)一樣)。小編后續(xù)也會(huì)陸陸續(xù)續(xù)介紹噠~