生信學(xué)習(xí)---數(shù)據(jù)結(jié)構(gòu)
前言(重要)
(1)R的賦值符號(hào)不是等號(hào),而是<-
(2)在Console 控制臺(tái)輸入命令,相當(dāng)于Linux的命令行
(3)R的代碼都是帶括號(hào)的,括號(hào)必須是英文的。
(4)顯示工作路徑 getwd()
(5)向量是由元素組成的,元素可以是數(shù)字或者字符串。
(6)表格在R語言中改名叫數(shù)據(jù)框_
(7)別只復(fù)制代碼,要理解其中的命令、函數(shù)的意思。函數(shù)或者命令不會(huì)用時(shí),除了百度/谷歌搜索以外,用這個(gè)命令查看幫助:?read.table,調(diào)出對應(yīng)的幫助文檔,翻到example部分研究一下。
(8)數(shù)據(jù)類型(重點(diǎn)只有兩個(gè),向量和數(shù)據(jù)框)
向量
向量和標(biāo)量的區(qū)分
向量是由元素組成的,元素可以是數(shù)字或者字符串。
標(biāo)量:一個(gè)元素組成的變量
向量:多個(gè)元素組成的變量常見命令
x<- c(1,2,3) #常用的向量寫法,意為將x定義為由元素1,2,3組成的向量。
x<- 1:10 #從1-10之間所有的整數(shù)x
x<- seq(1,10,by = 0.5) #1-10之間每隔0.5取一個(gè)數(shù)(注意是逗號(hào)不是分號(hào))
x<- rep(1:3,times=2) #1-3 重復(fù)2次從向量中提取元素
根據(jù)元素位置的幾個(gè)常見命令
- x[4] #x第4個(gè)元素
- x[-4]#排除法,除了第4個(gè)元素之外剩余的元素
- x[2:4]#第2到4個(gè)元素
- x[-(2:4)]#除了第2-4個(gè)元素
- x[c(1,5)] #第1個(gè)和第5個(gè)元素
根據(jù)值的幾個(gè)常見命令
- x[x==10]#等于10的元素
- x[x<0]
- x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素
數(shù)據(jù)框(即表格)
1.讀取本地?cái)?shù)據(jù)(表格必須在該文件夾下)
常用的命令read.table(file="huahua.txt",sep = "",header =T)
2.設(shè)置行名和列名
X<-read.csv('doudou.txt') #在示例數(shù)據(jù)里有doudou.txt 注意這里的變量X是一個(gè)數(shù)據(jù)框
colnames(X) #查看列名
rownames(X) #查看行名,默認(rèn)值的行名就是行號(hào),1.2.3.4...
colnames(X)[1]<-"bioplanet"#有的公司返回?cái)?shù)據(jù),左上角第一格為空,R會(huì)自動(dòng)補(bǔ)為x,用這個(gè)命令來修改
X<-read.csv(file = "huahua.txt",sep = "",header =T,row.names=1)#最后row.names的意思是修改第一列為行名
3.數(shù)據(jù)框的導(dǎo)出
write.table(X,file = "yu.txt",sep = ",",quote=F)#分隔符改為逗號(hào),字符串不加雙引號(hào)(默認(rèn)格式帶由雙引號(hào))
4.數(shù)據(jù)框變量的保存與重新加載
save.image(file="bioinfoplanet.RData")#保存當(dāng)前所有變量
save(X,file="test.RData")#保存其中一個(gè)變量
load("test.RData")#再次使用RData時(shí)的加載命令
5.提取元素
- X[x,y]#第x行第y列
- X[x,]#第x行
- X[,y]#第y列
- X[y] #也是第y列
- X[a:b]#第a列到第b列
- X[c(a,b)]#第a列和第b列
- X$列名#也可以提取列(優(yōu)秀寫法,而且這個(gè)命令還優(yōu)秀到不用寫括號(hào)的地步,并且支持Tab自動(dòng)補(bǔ)全哦,不過只能提取一列)
6.直接使用數(shù)據(jù)框的變量
常規(guī)
a <-data.frame(case=paste("S",1:50),values=runif(50))
plot(avalues)
升級(jí)版1
attach(a) plot(case,values)
做完后將a刪除出搜索環(huán)境 detach(a)
局限性:兩個(gè)以上數(shù)據(jù)框的列名有沖突時(shí),同時(shí)attach會(huì)報(bào)錯(cuò)。升級(jí)版2
with(a,{
plot(case,values)
x<<-summary(values) #求和并賦值給x,<<的意思是作為全局變量,也就是出了大括號(hào)仍有效。
})
x #運(yùn)行完后打印x
問題
Q:save(X,file="test.RData")這句代碼如果報(bào)錯(cuò)X not found,是為什么,應(yīng)該怎么解決
打開表格,read.table
