數(shù)據(jù)結(jié)構(gòu)
新手牢記:
(1)R的賦值符號(hào)不是等號(hào),而是<-
(2)在Console 控制臺(tái)輸入命令,相當(dāng)于Linux的命令行
(3)R的代碼都是帶括號(hào)的,括號(hào)必須是英文的。
(4)顯示工作路徑getwd()
(5)向量是由元素組成的,元素可以是數(shù)字或者字符串。
(6)表格在R語(yǔ)言中叫數(shù)據(jù)框
(7)別只復(fù)制代碼,要理解其中的命令、函數(shù)的意思。函數(shù)或者命令不會(huì)用時(shí),除了百度/谷歌搜索以外,用這個(gè)命令查看幫助:?read.table,調(diào)出對(duì)應(yīng)的幫助文檔,翻到example部分研究一下。
(8)數(shù)據(jù)類(lèi)型:
1.向量(vector)??重要
2.矩陣(Matrix)
3.數(shù)組(Array)
4.數(shù)據(jù)框(Data frame)??重要
5.List
向量
(1)標(biāo)量和向量的區(qū)分
- 元素指的是數(shù)字或者字符串(用chr表示,字符串在使用時(shí)必須加引號(hào)!?。?/strong>等,根據(jù)它可以區(qū)分兩個(gè)詞:
標(biāo)量:一個(gè)元素組成的變量
向量:多個(gè)元素有序排列組成的變量
(補(bǔ)充:一個(gè)向量是一排有序排列的元素,以后會(huì)用到把一個(gè)向量作為數(shù)據(jù)框中的一列的情況。)
變量.png
使用時(shí),一般都會(huì)直接給變量定義,也就是“賦值”,字面意思是賦予這個(gè)變量一個(gè)數(shù)值(其實(shí)也不一定是數(shù)值,還可以是字符串/數(shù)據(jù)框等等)。
- 代碼示例:
x<- c(1,2,3) #常用的向量寫(xiě)法,意為將x定義為由元素1,2,3組成的向量。
x
x<- 1:10 #從1-10之間所有的整數(shù)
x
x<- seq(1,10,by = 0.5) #1-10之間每隔0.5取一個(gè)數(shù)(注意是逗號(hào)不是分號(hào),“by=”可省略)
x
x<- rep(1:3,times=2) #1-3 重復(fù)2次
此時(shí)x被賦值了4次,結(jié)果就是,第一次賦值被第二次的覆蓋了,第二次的賦值又被第三次的覆蓋了,以此類(lèi)推,以最后一次為準(zhǔn)。
-
補(bǔ)充:給變量賦值以后
1.在哪看變量:
image.png
2.怎么看變量:
image.png
(2)從向量中提取元素
1. 根據(jù)元素位置
(這里的x是你剛才賦值的變量名,根據(jù)自己的情況來(lái)修改)
x[4] #x第4個(gè)元素
x[-4]#排除法,除了第4個(gè)元素之外剩余的元素
x[2:4]#第2到4個(gè)元素
x[-(2:4)]#除了第2-4個(gè)元素
x[c(1,5)] #第1個(gè)和第5個(gè)元素

2. 根據(jù)值
x[x==10]#等于10的元素
x[x<0]
x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素

注:“x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素”這里 好像是這個(gè)意思(

數(shù)據(jù)框
- 獲得示例數(shù)據(jù)框
x<-read.csv('doudou.txt')
示例數(shù)據(jù)框
顯示的NA表示空值,所以新建的時(shí)候空著就好
(1)讀取本地?cái)?shù)據(jù)
read.table(file="huahua.txt",sep="\t",header=T)
a<-read.table(file="huahua.txt",sep="\t",header=T)
View(a)

header=TRUE代表讀入數(shù)據(jù)時(shí)將第一行作為列名(若是FALSE則相反,不使用文件中第一行作為列名),也可以簡(jiǎn)寫(xiě)問(wèn)header=T(或是header=F)。不用指定sep參數(shù),因?yàn)閞ead.txt函數(shù)默認(rèn)參數(shù)sep='\t'。
sep="\t" 表示以tab(制表符)為分隔符。
處理數(shù)據(jù)的第一步是把數(shù)據(jù)讀入內(nèi)存空間,平時(shí)最常用的文本數(shù)據(jù)儲(chǔ)存格式有兩種:一種是CSV(逗號(hào)分隔符文本);另一種是TXT(Tab分隔符或空格分隔符)。有時(shí)候讀這兩種文件格式讀入容易混淆。
(2)設(shè)置行名和列名
X<-read.csv('doudou.txt') #在示例數(shù)據(jù)里有doudou.txt 注意這里的變量X是一個(gè)數(shù)據(jù)框
colnames(X) #查看列名
rownames(X) #查看行名,默認(rèn)值的行名就是行號(hào),1.2.3.4...
colnames(X)[1]<-"bioplanet"#有的公司返回?cái)?shù)據(jù),左上角第一格為空,R會(huì)自動(dòng)補(bǔ)為x,用這個(gè)命令來(lái)修改
X<-read.csv(file = "huahua.txt",sep = " ",header =T,row.names=1)#最后row.names的意思是修改第一列為行名

-
覆蓋剛才的修改:用剛才的read.table命令重新賦值一遍就可以覆蓋剛才改瞎的了。這也就是變量為什么叫"變"量。
覆蓋修改 - 注意:大小寫(xiě)要嚴(yán)格區(qū)分,“x”和“X”不一樣!
(3)數(shù)據(jù)框的導(dǎo)出
write.table(X,file = "and.txt",sep = ",",quote=F)#分隔符改為逗號(hào),字符串不加雙引號(hào)(默認(rèn)格式帶雙引號(hào))
quote=F表示輸出的char或factor不用""引住,即與默認(rèn)不同;quote=T使用"",即默認(rèn)格式。

(4)變量的保存與重新加載
這次沒(méi)有處理完的數(shù)據(jù)下次想接著用怎么辦?——學(xué)會(huì)保存和重新加載。保存的格式是RData。
save.image(file="bioinfoplanet.RData")#保存當(dāng)前所有變量
save(X,file="test.RData")#保存其中一個(gè)變量
load("test.RData")#再次使用RData時(shí)的加載命令
(5)提取元素
這里的X是的剛才的變量名,實(shí)際應(yīng)用要懂得替換。
X[x,y]#第x行第y列
X[x,]#第x行
X[,y]#第y列
X[y] #也是第y列
X[a:b]#第a列到第b列
X[c(a,b)]#第a列和第b列
X$列名#也可以提取列(優(yōu)秀寫(xiě)法,而且這個(gè)命令還優(yōu)秀到不用寫(xiě)括號(hào)的地步,并且支持Tab自動(dòng)補(bǔ)全哦,不過(guò)只能提取一列)




(6)【選修部分】直接使用數(shù)據(jù)框中的變量
- 提取某兩列作散點(diǎn)圖:(需要提示一下,這里的case和values是兩個(gè)單純的列名,沒(méi)別的意思)
options(stringsAsFactors = T)
a <-data.frame(case=paste0("S",1:9),values=runif(9))
plot(a$case,a$values)

這種方法的缺點(diǎn):數(shù)據(jù)框名a在代碼中重復(fù)出現(xiàn),不符合高效的要求
- 高效的實(shí)現(xiàn)方法
- 方法一:attach
將數(shù)據(jù)框名添加到搜索環(huán)境中:attach(a),作圖時(shí)就只需輸入列名(連$都不用了)。
attach(a)
plot(case,values)
做完后將a刪除出搜索環(huán)境 detach(a)。
局限性:兩個(gè)以上數(shù)據(jù)框的列名有沖突時(shí),同時(shí)attach會(huì)報(bào)錯(cuò)。
- 方法二:with
with函數(shù)使大括號(hào){}之間的語(yǔ)句都只針對(duì)data執(zhí)行,但如果大括號(hào)中只有一句的話,則省略大括號(hào)。
with(a,{
plot(case,values)
x<<-summary(values) #求和并賦值給x,<<的意思是作為全局變量,也就是出了大括號(hào)仍有效。
})
x #運(yùn)行完后打印x

問(wèn)題:
save(X,file="test.RData")這句代碼如果報(bào)錯(cuò)object X not found,是為什么,應(yīng)該怎么解決?
回答:
應(yīng)該是因?yàn)闆](méi)有給X賦值或者是沒(méi)區(qū)分大小寫(xiě),給X賦值或者改成x應(yīng)該就可以解決了。




