來(lái)自R本身的data
data()可以列舉出R本體和已載入package中帶的數(shù)據(jù)集。
data(package = .packages(all.available = TRUE))則能列出所有package中自帶的數(shù)據(jù)集(會(huì)有很多)。
如果要讀入某未載入的package中的數(shù)據(jù),使用以下命令:
> data('solder', package = 'rpart')
> View(solder)
TXT類型的data
使用read.table()或read.csv()讀入。read.csv是read.table的wrapper.
在read.table中參數(shù) header 默認(rèn)是FALSE,而在csv中默認(rèn)是TRUE;
在read.table中參數(shù) fill 默認(rèn)是!blank.lines.skip,需要時(shí)得手動(dòng)改成TRUE;在csv中默認(rèn)是TRUE。
read.table中 sep 參數(shù)用來(lái)指定分隔數(shù)據(jù)的字符(‘ ’ ‘,’等),nrow指定讀入多少行,skip指定省略多少行。二者同時(shí)存在時(shí),永遠(yuǎn)是先skip再讀入指定的行數(shù)。如果要更特定地指定讀入文件某部分,應(yīng)使用colbycol包或sqldf包。
從其他數(shù)據(jù)軟件文件讀入時(shí),還應(yīng)注意na.strings參數(shù)。例如對(duì)SQL源文件來(lái)說(shuō),na.strings=‘NULL’.
在寫出txt類型數(shù)據(jù)時(shí),最好在write.csv()等函數(shù)加上參數(shù)fileEncoding = 'utf8
對(duì)unstructured text files,可以使用readLines()先讀入,將源文件儲(chǔ)存為按行分割的長(zhǎng)string。
xml,html,json略。