GEO數(shù)據(jù)庫(kù)學(xué)習(xí)總結(jié)(一)數(shù)據(jù)下載

非常感謝jimmy大神與生信技能樹一直以來(lái)的無(wú)私分享,自己學(xué)習(xí)的同時(shí)也伴隨著記錄,如有錯(cuò)誤的,歡迎大家指正~~~~

1.數(shù)據(jù)下載


Ⅰ、R代碼直接下載數(shù)據(jù)

建議以Rdata形式保存數(shù)據(jù),以防網(wǎng)絡(luò)狗的時(shí)候,用不了的時(shí)候(-_-|),害.....

rm(list = ls())#清空控制臺(tái)
options(stringsAsFactors = F)#關(guān)掉選擇更新R包的函數(shù)
#https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42872
library(GEOquery)
eSet <- getGEO("GSE42872", #下載的GSE編號(hào),根據(jù)需求更換
               destdir = '.', 
               getGPL = F)
save(eSet,file = 'GSE19826_eSet.Rdata')
<關(guān)于參數(shù)>
  1. destdir 設(shè)置當(dāng)前目錄
  2. getGPLAnnotGPL都設(shè)置TRUE,可以下載和獲得平臺(tái)的注釋文件
    但是如果只要表達(dá)矩陣,沒(méi)有其他需求 getGPL = F,可以提高下載速度
  3. GEO Platform (GPL) 平臺(tái)(測(cè)序平臺(tái)/芯片平臺(tái))——可以提供注釋文件
    GEO Sample (GSM) 樣本
    GEO Series (GSE)系列
    GEO Dataset (GDS) 數(shù)據(jù)集
  • 一個(gè)GSE里面可以有一個(gè)或者多個(gè)GSM樣本
  • 多個(gè)研究的GSM樣本可以根據(jù)研究目的整合為一個(gè)GDS。

Ⅱ、網(wǎng)站下載數(shù)據(jù)及R讀取

GSE的.gz讀取——可直接讀取表達(dá)矩陣exp

exp = read.table('GSE42872_series_matrix.txt.gz',
             sep='\t',quote = "",fill = T,
             comment.char="!",header=T)
#也可以解壓后,直接讀取txt文件
exp =read.table('GSE42872_series_matrix.txt',
             sep='\t',quote = "",fill = T,
             comment.char="!",header=T)
  • 關(guān)于參數(shù)
    comment.char="!" ——不讀取文件中“!”后的內(nèi)容
    header=T——列名

GPL的soft文件讀取

##注意 函數(shù) getGEO
GPL6244=getGEO(filename = 'GSE42872_family.soft')

GPL文件也可以直接代碼下載

library(GEOquery)
GPL6244<- getGEO('GPL6244', destdir=".") 
GPL6244=Table( GPL6244)#得到我們想要的信息及格式
  • 注意 函數(shù) getGEO()基于R包GEOquery

2.提取表達(dá)矩陣exp(基于方法Ⅰ的R代碼)

exp <- exprs(eSet[[1]])
#若表達(dá)矩陣表達(dá)量整體過(guò)大,對(duì)矩陣進(jìn)行 log2,為了防止log無(wú)意義---exp加1
exp = log2(exp+1)#該步驟可省略,若表達(dá)量不需要log2
#log0無(wú)意義

3.獲取臨床信息(主要要用于ID轉(zhuǎn)換和生存分析)

  • 基于方法Ⅰ的R代碼
pdata <- pData(eSet[[1]])

有時(shí)候臨床信息很多,當(dāng)有一列的每一行是完全一樣,一般來(lái)說(shuō)沒(méi)有什么意義,反而會(huì)影響我們的閱讀,可以適當(dāng)縮小其范圍

pdata <- pData(eSet[[1]])
pdata <- pdata[,apply(pdata, 2, function(x){
  length(unique(x))>1})]  #縮小范圍
dim(pd1)
apply(pdata,table)
  • 基于方法Ⅱ的R代碼
library(GEOquery)
GPL6244<- getGEO('GPL6244', destdir=".") 
GPL6244=Table( GPL6244)#得到我們想要的信息及格式

歡迎大家多多騷擾~~~~~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容