探索性數(shù)據(jù)分析-對分布進行可視化表示

對分布進行可視化表示

1 想要檢查分類變量的分布,可以使用條形圖,條形的高度表示每個x值中觀測的數(shù)量(分類變量通常保存為因子或字符向量)
ggplot(data=diamonds)+
  geom_bar(mapping=aes(x=cut))
屏幕快照 2020-06-03 下午4.38.19.png
2 想要檢查連續(xù)變量的分布,可以使用直方圖
ggplot(data=diamonds)+
  geom_histogram(mapping=aes(x=carat),binwidth=0.5)
屏幕快照 2020-06-03 下午4.42.19.png

直方圖對x軸進行等寬分箱,然后使用條形的高度來表示落入每個分箱的觀測的數(shù)量,binwidth參數(shù)設(shè)定直方圖中的間隔寬度(用x軸變量的單位來度量)

下面只考慮重量小于3克拉的鉆石,并選擇一個更小的分箱寬度

smaller=diamonds %>% 
  filter(carat<3)
ggplot(smaller,mapping=aes(x=carat))+
  geom_histogram(binwidth=0.1)
3 geo_freqplot()使用折線,可以疊加圖形,執(zhí)行與geom_histogram()同樣的計算過程
ggplot(smaller,mapping=aes(x=carat,color=cut))+
  geom_freqpoly(binwidth=0.1)
屏幕快照 2020-06-03 下午4.50.03.png
4.用缺失值來代替異常值,最簡單的做法就是使用mutate()函數(shù)創(chuàng)建一個新的變量來代替原來的變量,使用ifelse()函數(shù)將異常值替換為NA
diamonds2=diamonds %>% 
  mutate(y=ifelse(y<3|y>20,NA,y))
ggplot(diamonds2)+
  geom_point(mapping=aes(x=x,y=y))
#ggplot2繪圖時會忽略缺失值,但會提出警告
屏幕快照 2020-06-03 下午6.04.44.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容