相關(guān)變動(dòng)描述多個(gè)變量之間的行為,查看相關(guān)變動(dòng)的最好方式是將兩個(gè)或多個(gè)變量間的關(guān)系以可視化的方式表現(xiàn)出來(lái)。
一 分類(lèi)變量與連續(xù)變量
- 探索連續(xù)變量的分布,這種分布按照一個(gè)分類(lèi)變量的值可以分為幾個(gè)組。
geo_frepoly()的默認(rèn)外觀不太適合這種比較,因?yàn)楦叨仁怯捎?jì)數(shù)給的。
ggplot(diamonds)+
geom_freqpoly(mapping=aes(x=price,color=cut),binwidth=500)

屏幕快照 2020-06-03 下午8.06.18.png
需要讓比較變得容易,需要改變y軸的內(nèi)容,不再顯示計(jì)數(shù),而是顯示密度。密度是對(duì)計(jì)數(shù)的標(biāo)準(zhǔn)化,這樣每個(gè)頻率多邊形下邊的面積都是1
ggplot(diamonds)+
geom_freqpoly(mapping=aes(x=price,y=..density..,color=cut),binwidth=500)
#freqploy()要求x軸是連續(xù)型變量

屏幕快照 2020-06-03 下午8.17.08.png
2.按分類(lèi)變量的分組顯示連續(xù)變量分布的另一種方式是箱線圖。
ggplot(diamonds)+
geom_boxplot(mapping=aes(x=price,y=cut))+
coord_flip() #翻轉(zhuǎn)90度

屏幕快照 2020-06-03 下午8.36.57.png
mpg數(shù)據(jù)集,公路里程因汽車(chē)類(lèi)別的不同會(huì)有怎樣的變化
ggplot(mpg,mapping=aes(x=class,y=hwy))+
geom_boxplot()
為了更容易發(fā)現(xiàn)浴室,可以基于hwy值的中位數(shù)對(duì)class進(jìn)行重新排序:
```{r}
ggplot(mpg)+
geom_boxplot(mapping=aes(x=reorder(class,hwy,FUN = median)))
#reorder()函數(shù),第一個(gè)參數(shù)是分類(lèi)變量,第二個(gè)參數(shù)通常是數(shù)值型變量,根據(jù)第二個(gè)參數(shù)的值對(duì)第一個(gè)變量進(jìn)行排序

屏幕快照 2020-06-04 上午9.17.25.png
上圖的y軸不太對(duì),why??????
二 兩個(gè)分類(lèi)變量
1 想對(duì)兩個(gè)分類(lèi)變量間的相關(guān)變動(dòng)進(jìn)行可視化表示,需要計(jì)算出每個(gè)變量組合中的觀測(cè)數(shù)量
ggplot(diamonds)+
geom_count(mapping=aes(x=cut,y=color))

屏幕快照 2020-06-04 下午4.05.29.png
2 計(jì)算變量組合中的觀測(cè)數(shù)量的另一種方法是用dplyr
diamonds %>%
count(color,cut) %>%
ggplot(mapping=aes(x=color,y=cut))+
geom_tile(mapping=aes(fill=n))
#geom_tile()函數(shù)和填充圖形屬性進(jìn)行可視化

屏幕快照 2020-06-04 下午4.17.24.png
三 兩個(gè)連續(xù)變量
1 散點(diǎn)圖
ggplot(diamonds)+
geom_point(mapping=aes(x=carat,y=price))
#可以看到鉆石的克拉數(shù)和價(jià)值之間存在一種指數(shù)關(guān)系
alpha圖形屬性添加透明度可以解決黑點(diǎn)堆積
ggplot(diamonds)+
geom_point(mapping=aes(x=carat,y=price),alpha=1/100)

屏幕快照 2020-06-04 下午4.23.09.png
2.兩個(gè)維度的分箱圖
geom_bin2d()函數(shù)將坐標(biāo)平面分為二維分箱,并使用一種填充顏色表示落入每個(gè)分箱的數(shù)據(jù)點(diǎn)。
ggplot(diamonds)+
geom_bin2d(mapping=aes(x=carat,y=price))

屏幕快照 2020-06-04 下午4.29.05.png