非常感謝jimmy大神與生信技能樹一直以來(lái)的無(wú)私分享,自己學(xué)習(xí)的同時(shí)也伴隨著記錄,如有錯(cuò)誤的,歡迎大家指正~~~~
1.數(shù)據(jù)下載
Ⅰ、R代碼直接下載數(shù)據(jù)
建議以Rdata形式保存數(shù)據(jù),以防網(wǎng)絡(luò)狗的時(shí)候,用不了的時(shí)候(-_-|),害.....
rm(list = ls())#清空控制臺(tái)
options(stringsAsFactors = F)#關(guān)掉選擇更新R包的函數(shù)
#https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42872
library(GEOquery)
eSet <- getGEO("GSE42872", #下載的GSE編號(hào),根據(jù)需求更換
destdir = '.',
getGPL = F)
save(eSet,file = 'GSE19826_eSet.Rdata')
<關(guān)于參數(shù)>
- destdir 設(shè)置當(dāng)前目錄
-
getGPL 和AnnotGPL都設(shè)置TRUE,可以下載和獲得平臺(tái)的注釋文件
但是如果只要表達(dá)矩陣,沒(méi)有其他需求 getGPL = F,可以提高下載速度 - GEO Platform (GPL) 平臺(tái)(測(cè)序平臺(tái)/芯片平臺(tái))——可以提供注釋文件
GEO Sample (GSM) 樣本
GEO Series (GSE)系列
GEO Dataset (GDS) 數(shù)據(jù)集
- 一個(gè)GSE里面可以有一個(gè)或者多個(gè)GSM樣本
- 多個(gè)研究的GSM樣本可以根據(jù)研究目的整合為一個(gè)GDS。
Ⅱ、網(wǎng)站下載數(shù)據(jù)及R讀取
-
正確利用連接找到GSE
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42872
只需要改GSE后編號(hào)數(shù)便可下載文件,后讀入文件 - 關(guān)于網(wǎng)站下載的GSE與GPL文件可見——>http://www.itdecent.cn/p/19d6db819c32
GSE的.gz讀取——可直接讀取表達(dá)矩陣exp
exp = read.table('GSE42872_series_matrix.txt.gz',
sep='\t',quote = "",fill = T,
comment.char="!",header=T)
#也可以解壓后,直接讀取txt文件
exp =read.table('GSE42872_series_matrix.txt',
sep='\t',quote = "",fill = T,
comment.char="!",header=T)
- 關(guān)于參數(shù)
comment.char="!" ——不讀取文件中“!”后的內(nèi)容
header=T——列名
GPL的soft文件讀取
##注意 函數(shù) getGEO
GPL6244=getGEO(filename = 'GSE42872_family.soft')
GPL文件也可以直接代碼下載
library(GEOquery)
GPL6244<- getGEO('GPL6244', destdir=".")
GPL6244=Table( GPL6244)#得到我們想要的信息及格式
- 注意 函數(shù) getGEO()基于R包GEOquery
2.提取表達(dá)矩陣exp(基于方法Ⅰ的R代碼)
exp <- exprs(eSet[[1]])
#若表達(dá)矩陣表達(dá)量整體過(guò)大,對(duì)矩陣進(jìn)行 log2,為了防止log無(wú)意義---exp加1
exp = log2(exp+1)#該步驟可省略,若表達(dá)量不需要log2
#log0無(wú)意義
3.獲取臨床信息(主要要用于ID轉(zhuǎn)換和生存分析)
- 基于方法Ⅰ的R代碼
pdata <- pData(eSet[[1]])
有時(shí)候臨床信息很多,當(dāng)有一列的每一行是完全一樣,一般來(lái)說(shuō)沒(méi)有什么意義,反而會(huì)影響我們的閱讀,可以適當(dāng)縮小其范圍
pdata <- pData(eSet[[1]])
pdata <- pdata[,apply(pdata, 2, function(x){
length(unique(x))>1})] #縮小范圍
dim(pd1)
apply(pdata,table)
- 基于方法Ⅱ的R代碼
library(GEOquery)
GPL6244<- getGEO('GPL6244', destdir=".")
GPL6244=Table( GPL6244)#得到我們想要的信息及格式
歡迎大家多多騷擾~~~~~