R語言實(shí)戰(zhàn)學(xué)習(xí)筆記 第二章 創(chuàng)建數(shù)據(jù)集

R語言實(shí)戰(zhàn)

第二章 創(chuàng)建數(shù)據(jù)集

1.數(shù)據(jù)集的概念:

數(shù)據(jù)集通常是由數(shù)據(jù)構(gòu)成的一個(gè)矩形數(shù)組,行表示觀測,列表示變量。

2.數(shù)據(jù)結(jié)構(gòu):

2.1 向量

函數(shù)c( )可用來創(chuàng)建向量。單個(gè)向量中的數(shù)據(jù)必須相同類型或相同模式(數(shù)值型、字符型或邏輯型)。

2.2 矩陣

可通過函數(shù)matrix( )創(chuàng)建矩陣。一般使用格式為:

mymatrix<-matirx(vector,nrow=number_of_rows,ncol=number_of_columns,

byrow=logical_value,dimname=list(

char_vector_rowname,char_vector_colnames))

2.3 數(shù)組

通過函數(shù)array( )創(chuàng)建。形式如下:

myarray<-array(vector,dimensions,dimnames)

2.4 數(shù)據(jù)框

2.4.1 可以通過data.frame創(chuàng)建:

mydata<-data.frame(col1,col2,col3,...)

#其中col1、col2、col3可以是任何類型。

2.4.2 選取數(shù)據(jù)框中的元素

attach( )、detach( )、和with( )

attach( )可將數(shù)據(jù)框添加到R的搜索路徑中。detach( )則是將數(shù)據(jù)框從搜索路徑中移除。

2.5 因子

factor( )

diabetes<-c("type1","type2","type1","type1")

要表示有序型變量,需要為函數(shù)factor( )指定參數(shù)ordered=TURE。

2.6 列表

list( )

3.數(shù)據(jù)的輸入

常用的有:read.csv( ),read.table,參數(shù)有如下:

header:一個(gè)表示文件是否在第一行包含了變量名的邏輯型變量。

sep:分隔符。默認(rèn)值是sep=" ",表示空格分隔。sep=","用于讀取用逗號(hào)分隔行內(nèi)數(shù)據(jù)的文件,sep="\t",用于讀取.table文件。

row.names:行名

col.names:列名

na.strings:缺失值的字符向量

colClasses: 每一列的類型

quote: 用于對(duì)有特殊字符的字符串劃定界限的字符串。默認(rèn)值是雙引號(hào)或單引號(hào)。

skip:讀取數(shù)據(jù)前跳過的行的數(shù)目。

stringsAsFactors:字符是否需要轉(zhuǎn)換成因子。

text:指定文件進(jìn)行處理的字符串。(需要進(jìn)一步學(xué)習(xí))

mydata1<-read.csv("data.csv",skip=3,as.is=T,na.strings=c( ))

mydata2<-read,table("data2.csv",header=T,row.names="ID",sep=",")

小結(jié)

本章主要是掌握常見數(shù)據(jù)結(jié)構(gòu),以及數(shù)據(jù)框中參數(shù)的使用。讀取文件數(shù)據(jù)是遇到問題該如何解決。

筆記參考R語言實(shí)戰(zhàn)(第2版)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容