《Learning R》筆記 Chapter 12 Retrieve data

來(lái)自R本身的data

data()可以列舉出R本體和已載入package中帶的數(shù)據(jù)集。
data(package = .packages(all.available = TRUE))則能列出所有package中自帶的數(shù)據(jù)集(會(huì)有很多)。
如果要讀入某未載入的package中的數(shù)據(jù),使用以下命令:

> data('solder', package = 'rpart')
> View(solder)

TXT類型的data

使用read.table()或read.csv()讀入。read.csv是read.table的wrapper.
在read.table中參數(shù) header 默認(rèn)是FALSE,而在csv中默認(rèn)是TRUE;
在read.table中參數(shù) fill 默認(rèn)是!blank.lines.skip,需要時(shí)得手動(dòng)改成TRUE;在csv中默認(rèn)是TRUE。

read.table中 sep 參數(shù)用來(lái)指定分隔數(shù)據(jù)的字符(‘ ’ ‘,’等),nrow指定讀入多少行,skip指定省略多少行。二者同時(shí)存在時(shí),永遠(yuǎn)是先skip再讀入指定的行數(shù)。如果要更特定地指定讀入文件某部分,應(yīng)使用colbycol包或sqldf包。

從其他數(shù)據(jù)軟件文件讀入時(shí),還應(yīng)注意na.strings參數(shù)。例如對(duì)SQL源文件來(lái)說(shuō),na.strings=‘NULL’.
在寫出txt類型數(shù)據(jù)時(shí),最好在write.csv()等函數(shù)加上參數(shù)fileEncoding = 'utf8

對(duì)unstructured text files,可以使用readLines()先讀入,將源文件儲(chǔ)存為按行分割的長(zhǎng)string。

xml,html,json略。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容