啊 堅(jiān)持真的是一件困難的事情(小聲抱怨) ????????????
今天繼續(xù)學(xué)習(xí)R——數(shù)據(jù)結(jié)構(gòu)
劃重點(diǎn):
1、向量是由元素組成的,元素可以是數(shù)字或者字符串。
2、表格在R語言中改名叫數(shù)據(jù)框
3、學(xué)會(huì)使用幫助文檔:?read.table調(diào)出對(duì)應(yīng)的幫助文檔,翻到example部分研究一下。
4、數(shù)據(jù)類型:
向量(vector)??重要
矩陣(Matrix)
數(shù)組(Array)
數(shù)據(jù)框(Data frame)??重要
List
??在這些數(shù)據(jù)類型里,生信學(xué)習(xí)者最需要熟悉的是向量和數(shù)據(jù)框
1、向量
向量是由元素組成,那么元素是什么?
??理解元素,標(biāo)量,向量
元素指的是數(shù)字或者字符串(用chr表示)等,根據(jù)它可以區(qū)分兩個(gè)詞:
?標(biāo)量:一個(gè)元素組成的變量
?向量:多個(gè)元素組成的變量

> getwd() #查看工作路徑
[1] "D:/RStudio"
> x<- c(1,2,3) #常用的向量寫法,意為將x定義為由元素1,2,3組成的向量。
> x<- 1:10 #從1-10之間所有的整數(shù)
> x
[1] 1 2 3 4 5 6 7 8 9 10
> x<- seq(1,10,by = 0.5) #1-10之間每隔0.5取一個(gè)數(shù)(注意是逗號(hào)不是分號(hào))
> x
[1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5
[15] 8.0 8.5 9.0 9.5 10.0
> x<- rep(1:3,times=2) #1-3 重復(fù)2次
> x
[1] 1 2 3 1 2 3
新手tips:
如果你把這幾行代碼都打過了,那么x就被你賦值了4次,結(jié)果就是,第一次賦值被第二次的覆蓋了,第二次的賦值又被第三次的覆蓋了,以此類推,以最后一次為準(zhǔn)哦。
2、從向量中提取元素
(1)根據(jù)元素的位置提取元素
> x
[1] 1 2 3 1 2 3
> #這里的x是你剛才賦值的變量名,根據(jù)自己的情況來修改
> x[4] #x第4個(gè)元素
[1] 1
> x[-4]#排除法,除了第4個(gè)元素之外剩余的元素
[1] 1 2 3 2 3
> x[2:4]#第2到4個(gè)元素
[1] 2 3 1
> x[-(2:4)]#除了第2-4個(gè)元素
[1] 1 2 3
> x[c(1,5)] #第1個(gè)和第5個(gè)元素
[1] 1 2
(2)根據(jù)值
> x[x==10]#等于10的元素
integer(0)
> x[x<0]
integer(0)
> x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素
[1] 1 2 1 2
3、數(shù)據(jù)框
#先讀取你要的數(shù)據(jù),注意:讀取文件之前要先確定工作路徑下是否存在該文件,否則會(huì)報(bào)錯(cuò)
> X<-read.csv('doudou.txt') #在示例數(shù)據(jù)里有doudou.txt 注意這里的變量X是一個(gè)數(shù)據(jù)框,將該示例數(shù)據(jù)賦值為X
> colnames(X) #查看列名
[1] "X1" "X2"
> rownames(X) #查看行名,默認(rèn)值的行名就是行號(hào),1.2.3.4...
[1] "1" "2" "3" "4" "5"
> colnames(X)[1]<-"bioplanet"#有的公司返回?cái)?shù)據(jù),左上角第一格為空,R會(huì)自動(dòng)補(bǔ)為x,用這個(gè)命令來修改,那么表格的第一列原本的X1會(huì)被bioplanet代替
> View(X)


sep 是函數(shù)的形式參數(shù),多數(shù)情況下, seq 參數(shù)用來指定字符的分隔符號(hào)。
不僅用在你所提到的輸出,也用在輸入,也用在字符串的合并與拆分上。
csv 文件是用逗號(hào)分隔的,故而 sep = ","
tsv 文件是用制表符分隔的,故而 sep = "\t"
常用的分隔符還有空格 sep = " "
分隔符是任意的,可根據(jù)具體情況指定的。
在輸入的時(shí)候,原內(nèi)容是用什么符號(hào)分隔的,sep就要保持一致,否則可能無法正確讀取。
在輸出時(shí)雖說分隔符是可以任意指定,但也要遵循一個(gè)原則,就是分隔符號(hào)不要與待輸出內(nèi)容中的字符有重復(fù)。
否則輸出后的文件,重新讀取的時(shí)候該分隔符并不能有效正確分開,可能出錯(cuò)。
-
再來一遍讀取,誰讓我那么愛豆豆和花花老師呢~~哈哈!??
先來看一下花花老師的示例數(shù)據(jù):
huahua.txt
Y<-read.csv(file = "huahua.txt",sep = " ",header =T,row.names=1)
#最后row.names的意思是修改第一列為行名
View(Y)

4、占有欲使我想要保存或者導(dǎo)出這個(gè)表格,怎么做?
(1)變量的保存與重新加載
#這次沒有處理完的數(shù)據(jù)下次想接著用怎么辦?--學(xué)會(huì)保存和重新加載。保存的格式是RData。
save.image(file="bioinfoplanet.RData")#保存當(dāng)前所有變量
save(X,file="test.RData")#保存其中一個(gè)變量
load("test.RData")#再次使用RData時(shí)的加載命令

(2)導(dǎo)出
write.table(Y,file = "lisa.txt",sep = ",",quote=F)
#分隔符改為逗號(hào),字符串不加雙引號(hào)(默認(rèn)格式帶雙引號(hào),這里改為False)


來自豬莎的碎碎念:
1、導(dǎo)出文本文件
1)write.table函數(shù)語法:
write.table (x, file ="", sep ="", row.names =TRUE, col.names =TRUE, quote =TRUE)
x:需要導(dǎo)出的數(shù)據(jù)
file:導(dǎo)出的文件命名
sep:分隔符,默認(rèn)為空格(" "),也就是以空格為分割列
row.names:是否導(dǎo)出行序號(hào),默認(rèn)為TRUE,也就是導(dǎo)出行序號(hào)
col.names:是否導(dǎo)出列名,默認(rèn)為TRUE,也就是導(dǎo)出列名
quote:字符串是否使用引號(hào)表示,默認(rèn)為TRUE,也就是使用引號(hào)表示
2)案列:
先生成一個(gè)數(shù)據(jù)框(生成數(shù)據(jù)!)
>age <- c (22,23)
> age
[1] 22 23
> name <- c ("ken", "john")
> name
[1] "ken" "john"
> f <- data.frame (age, name)
> f
age name
1 22 ken
2 23 john
#再導(dǎo)出數(shù)據(jù)框數(shù)據(jù)(導(dǎo)出數(shù)據(jù)?。?#以空格分隔數(shù)據(jù)列(默認(rèn)),含行號(hào)(默認(rèn)),含列名(默認(rèn)),字符串帶引號(hào)
write.table (f, file ="f.csv")
#以逗號(hào)分隔數(shù)據(jù)列,含行號(hào)(默認(rèn)),含列名(默認(rèn)),字符串帶引號(hào)
write.table (f,file ="f.csv", sep =",")
#以逗號(hào)分隔數(shù)據(jù)列,不含行號(hào),含列名(默認(rèn)),字符串帶引號(hào)
write.table (f,file ="f.csv", sep =",", row.names = FALSE)
#以空格分隔數(shù)據(jù)列,不含行號(hào),不含列名,字符串帶引號(hào)
write.table (f,file ="f.csv", row.names = FALSE, col.names =FALSE)
#以空格分隔數(shù)據(jù)列,不含行號(hào),不含列名,字符串不帶引號(hào)
write.table (f,file ="f.csv", row.names = FALSE, col.names =FALSE, quote =FALSE)
5、提取元素
超級(jí)重要哦~
- X[x,y] #第x行第y列
- X[x,] #第x行
- X[,y] #第y列
- X[y] #也是第y列
- X[a:b] #第a列到第b列
- X[c(a,b)] #第a列和第b列
- X$列名
#也可以提取列(優(yōu)秀寫法,而且這個(gè)命令還優(yōu)秀到不用寫括號(hào)的地步,并且支持Tab自動(dòng)補(bǔ)全哦,不過只能提取一列)
6、直接使用數(shù)據(jù)框中的變量
a <-data.frame(case=paste("S",1:50),values=runif(50))
plot(a$case,a$values)
#偷懶方法:
attach(a) #將a放入一個(gè)小環(huán)境中,后面在使用a中的元素時(shí)可以不需要重復(fù)寫a數(shù)據(jù)框的名字
plot(case,values)
detach(a) #將a從小環(huán)境中刪除
#局限性:做完后將a刪除出搜索環(huán)境 detach(a)
#兩個(gè)以上數(shù)據(jù)框的列名有沖突時(shí),同時(shí)attach會(huì)報(bào)錯(cuò)
with(a,{ #with常用于數(shù)據(jù)框,使R表達(dá)式位于數(shù)據(jù)框的作用環(huán)境中,便于對(duì)數(shù)據(jù)框變量的引用
plot(case,values)
x<<-summary(values) })
#求和并賦值給x,<<的意思是作為全局變量,也就是出了大括號(hào)仍有效。
#運(yùn)行完后打印x
#課后小問題:
save(X,file="test.RData") #這句代碼如果報(bào)錯(cuò)X not found,是為什么,應(yīng)該怎么解決?
#報(bào)錯(cuò)是因?yàn)橹皼]有將想要保存的數(shù)據(jù)框賦值給X

??啊今天的任務(wù)終于完成
總結(jié)一下吧(比較佛系的思維導(dǎo)圖)

Fighting~~~~~~~~????????????????????????????????????
