R語言實(shí)戰(zhàn)
第二章 創(chuàng)建數(shù)據(jù)集
1.數(shù)據(jù)集的概念:
數(shù)據(jù)集通常是由數(shù)據(jù)構(gòu)成的一個(gè)矩形數(shù)組,行表示觀測,列表示變量。
2.數(shù)據(jù)結(jié)構(gòu):
2.1 向量
函數(shù)c( )可用來創(chuàng)建向量。單個(gè)向量中的數(shù)據(jù)必須相同類型或相同模式(數(shù)值型、字符型或邏輯型)。
2.2 矩陣
可通過函數(shù)matrix( )創(chuàng)建矩陣。一般使用格式為:
mymatrix<-matirx(vector,nrow=number_of_rows,ncol=number_of_columns,
byrow=logical_value,dimname=list(
char_vector_rowname,char_vector_colnames))
2.3 數(shù)組
通過函數(shù)array( )創(chuàng)建。形式如下:
myarray<-array(vector,dimensions,dimnames)
2.4 數(shù)據(jù)框
2.4.1 可以通過data.frame創(chuàng)建:
mydata<-data.frame(col1,col2,col3,...)
#其中col1、col2、col3可以是任何類型。
2.4.2 選取數(shù)據(jù)框中的元素
attach( )、detach( )、和with( )
attach( )可將數(shù)據(jù)框添加到R的搜索路徑中。detach( )則是將數(shù)據(jù)框從搜索路徑中移除。
2.5 因子
factor( )
diabetes<-c("type1","type2","type1","type1")
要表示有序型變量,需要為函數(shù)factor( )指定參數(shù)ordered=TURE。
2.6 列表
list( )
3.數(shù)據(jù)的輸入
常用的有:read.csv( ),read.table,參數(shù)有如下:
header:一個(gè)表示文件是否在第一行包含了變量名的邏輯型變量。
sep:分隔符。默認(rèn)值是sep=" ",表示空格分隔。sep=","用于讀取用逗號(hào)分隔行內(nèi)數(shù)據(jù)的文件,sep="\t",用于讀取.table文件。
row.names:行名
col.names:列名
na.strings:缺失值的字符向量
colClasses: 每一列的類型
quote: 用于對(duì)有特殊字符的字符串劃定界限的字符串。默認(rèn)值是雙引號(hào)或單引號(hào)。
skip:讀取數(shù)據(jù)前跳過的行的數(shù)目。
stringsAsFactors:字符是否需要轉(zhuǎn)換成因子。
text:指定文件進(jìn)行處理的字符串。(需要進(jìn)一步學(xué)習(xí))
mydata1<-read.csv("data.csv",skip=3,as.is=T,na.strings=c( ))
mydata2<-read,table("data2.csv",header=T,row.names="ID",sep=",")
小結(jié)
本章主要是掌握常見數(shù)據(jù)結(jié)構(gòu),以及數(shù)據(jù)框中參數(shù)的使用。讀取文件數(shù)據(jù)是遇到問題該如何解決。
筆記參考R語言實(shí)戰(zhàn)(第2版)