接下來要啃的書是這本,《R 數(shù)據(jù)可視化手冊》。

書不厚,是一本隨用隨查的實用工具書,是用 R做可視化的基礎(chǔ)入門書籍。
主要內(nèi)容
本書主要內(nèi)容如下:
首先是
條形圖、散點圖和折線圖的繪制,描述數(shù)據(jù)分布的圖形;然后是一些圖形元素知識,包括
注釋、坐標軸、整體外觀、圖例、分面和配色;最后是
其他圖形、圖形輸出和數(shù)據(jù)塑性。
我們后面將依次啃每一章節(jié)。
準備工作
處理數(shù)據(jù)知識
可視化的目的是把數(shù)據(jù)包含的信息用更直觀的方式展示出來。
那么,首先肯定是處理數(shù)據(jù),掌握R基礎(chǔ)知識,足以應(yīng)付80%的可視化前的數(shù)據(jù)處理問題。
愿意的話,可以參考我之前的文章,《R 語言實戰(zhàn)》學(xué)習(xí)筆記。
讀入數(shù)據(jù)的語句
學(xué)習(xí)這本書中內(nèi)容,需要用到的R 包包括但不限于,ggplot2、MASS、gcookbook、foreign 等。安裝和加載不再贅述。
同時還需要掌握,read.csv、 read.table、 read.xlsx和 read.spss 等語句的使用。
加載分隔符文件
- 逗號分隔符
read.csv("datafile.csv")
為了不將一些字符自動轉(zhuǎn)換為因子,可以加上參數(shù):
read.csv("datafile.csv",stringsAsFactors = FALSE)
當(dāng)然也可以使用適用范圍更廣的 read.table 語句讀取逗號分隔符文件:
read.table(file = "datafile.csv", sep = ",")
更多read.table的使用方法,運行語句?read.table查看。
從 EXCEL 文件加載數(shù)據(jù)
可以安裝加載xlsx包進行讀取。
install.packages("xlsx")
library(xlsx)
實話說,加載這個包,會報JAVA環(huán)境沒安裝的錯: JAVA_HOME cannot be determined from the Registry。
要解決這個問題,還得安裝JDK。這真的是為了吃豬肉還得從養(yǎng)豬開始。性價比極低,直接用read.table完全可以勝任。
但是相關(guān)知識點還是得知道。
read.xlsx語句默認讀取工作簿的第一張sheet
read.xlsx("filename.xlsx")
可以指定sheet的索引或者名稱,使用下面的語句:
read.xlsx("filename.xlsx", sheetIndex= n)
read.xlsx("filename.xlsx", sheetName= "sheetname")
另外,還有gdata包的read.xls可以使用,這里不再贅述。
從SPSS文件加載數(shù)據(jù)
安裝加載包foreign,使用read.spss語句讀取.sav文件。
install.packages("foreign")
library(foreign)
read.spss("filename.sav")
當(dāng)然了,SAS數(shù)據(jù)集也可以讀入,使用read.ssd()語句。
以上。