對分布進行可視化表示
1 想要檢查分類變量的分布,可以使用條形圖,條形的高度表示每個x值中觀測的數(shù)量(分類變量通常保存為因子或字符向量)
ggplot(data=diamonds)+
geom_bar(mapping=aes(x=cut))

屏幕快照 2020-06-03 下午4.38.19.png
2 想要檢查連續(xù)變量的分布,可以使用直方圖
ggplot(data=diamonds)+
geom_histogram(mapping=aes(x=carat),binwidth=0.5)

屏幕快照 2020-06-03 下午4.42.19.png
直方圖對x軸進行等寬分箱,然后使用條形的高度來表示落入每個分箱的觀測的數(shù)量,binwidth參數(shù)設(shè)定直方圖中的間隔寬度(用x軸變量的單位來度量)
下面只考慮重量小于3克拉的鉆石,并選擇一個更小的分箱寬度
smaller=diamonds %>%
filter(carat<3)
ggplot(smaller,mapping=aes(x=carat))+
geom_histogram(binwidth=0.1)
3 geo_freqplot()使用折線,可以疊加圖形,執(zhí)行與geom_histogram()同樣的計算過程
ggplot(smaller,mapping=aes(x=carat,color=cut))+
geom_freqpoly(binwidth=0.1)

屏幕快照 2020-06-03 下午4.50.03.png
4.用缺失值來代替異常值,最簡單的做法就是使用mutate()函數(shù)創(chuàng)建一個新的變量來代替原來的變量,使用ifelse()函數(shù)將異常值替換為NA
diamonds2=diamonds %>%
mutate(y=ifelse(y<3|y>20,NA,y))
ggplot(diamonds2)+
geom_point(mapping=aes(x=x,y=y))
#ggplot2繪圖時會忽略缺失值,但會提出警告

屏幕快照 2020-06-03 下午6.04.44.png