-
缺失值
異常值處理辦法
- 丟棄
diamonds2 <- diamonds %>%
filter(between(y, 3, 20))
選擇y=3-20之間的數(shù)值。
- 用缺失值代替
diamonds2 <- diamonds %>%
mutate(y = ifelse(y < 3 | y > 20, NA, y))
ifelse() 函數(shù)有3 個(gè)參數(shù)。第一個(gè)參數(shù)test 應(yīng)該是一個(gè)邏輯向量,如果test 為TRUE,函
數(shù)結(jié)果就是第二個(gè)參數(shù)yes 的值;如果test 為FALSE,函數(shù)結(jié)果就是第三個(gè)參數(shù)no 的值。
和R 一樣,ggplot2 也遵循不能無視缺失值的原則。因?yàn)闊o法明確地繪制出缺失值,所以
ggplot2 在繪圖時(shí)會(huì)忽略缺失值,但會(huì)提出警告以通知缺失值被丟棄了,要想不顯示這條警告,可以設(shè)置na.rm = TRUE.
ggplot(data = diamonds2, mapping = aes(x = x, y = y)) +
geom_point(na.rm = TRUE)
-
相關(guān)變動(dòng)
1.分類變量與連續(xù)變量
ggplot(data = diamonds, mapping = aes(x = price)) +
geom_freqpoly(mapping = aes(color = cut), binwidth = 500)
Y默認(rèn)是count值
三個(gè)變量顯示
ggplot(
data = diamonds,
mapping = aes(x = price, y = ..density..)
) +
geom_freqpoly(mapping = aes(color = cut), binwidth = 500)
箱體圖
ggplot(data = mpg, mapping = aes(x = class, y = hwy)) +
geom_boxplot()
箱體圖排序
ggplot(data = mpg) +
geom_boxplot(mapping = aes(
x = reorder(class, hwy, FUN = median),
y = hwy))
FUN是分類依據(jù)(以基于hwy 值的中位數(shù)對(duì)class 進(jìn)行重新排序)
倒置coord_flip()
總結(jié):
filter()篩選
between()篩選范圍
mutate()建立新變量
ifelse()篩選條件
na.rm=true顯示NA值
geom_freqpoly()折線圖
geom_boxplot ()箱體圖
reorder()圖形排序
coord_flip()倒置