昨天上午復(fù)習(xí)了前天學(xué)的知識(shí),隨后被Deep Learning與生信組合吸引了注意,不過看了一些文獻(xiàn)和公眾號(hào)推送,覺得還是不能太理解。
下午繼續(xù)寫開題報(bào)告,下載了很多關(guān)于蛋白質(zhì)組學(xué)的畢業(yè)論文,理清了思路,大概完成了框架。
晚上開始學(xué)習(xí)生信,昨天主要是一些代碼的學(xué)習(xí)。
GEO數(shù)據(jù)的下載和提?。ㄕ∽陨偶寄軜洌?/p>
#數(shù)據(jù)下載
rm(list = ls())
options(stringsAsFactors = F)
library(GEOquery)
gse = "GSE42872"
eSet <- getGEO(gse,
?????????????? destdir = '.',(下載到當(dāng)前目錄)
?????????????? getGPL = F)(不要注釋文件)
#(1)提取表達(dá)矩陣exp
exp <- exprs(eSet[[1]])
exp[1:4,1:4] (這里主要是為了看數(shù)據(jù),是不是log后的,可以range看范圍)
#exp = log2(exp+1)
#(2)提取臨床信息
pd <- pData(eSet[[1]])
#(3)調(diào)整pd的行名順序與exp列名完全一致(這步很重要,如果落下了后面的分析全錯(cuò))
p = identical(rownames(pd),colnames(exp));p
if(!p) exp =exp[,match(rownames(pd),colnames(exp))]
#(4)提取芯片平臺(tái)編號(hào)
gpl <- eSet[[1]]@annotation
save(gse,pd,exp,gpl,file ="step1output.Rdata")