探索性數(shù)據(jù)分析-相關(guān)變動(dòng)

相關(guān)變動(dòng)描述多個(gè)變量之間的行為,查看相關(guān)變動(dòng)的最好方式是將兩個(gè)或多個(gè)變量間的關(guān)系以可視化的方式表現(xiàn)出來(lái)。

一 分類(lèi)變量與連續(xù)變量

  1. 探索連續(xù)變量的分布,這種分布按照一個(gè)分類(lèi)變量的值可以分為幾個(gè)組。
    geo_frepoly()的默認(rèn)外觀不太適合這種比較,因?yàn)楦叨仁怯捎?jì)數(shù)給的。
ggplot(diamonds)+
  geom_freqpoly(mapping=aes(x=price,color=cut),binwidth=500)

屏幕快照 2020-06-03 下午8.06.18.png

需要讓比較變得容易,需要改變y軸的內(nèi)容,不再顯示計(jì)數(shù),而是顯示密度。密度是對(duì)計(jì)數(shù)的標(biāo)準(zhǔn)化,這樣每個(gè)頻率多邊形下邊的面積都是1

ggplot(diamonds)+
  geom_freqpoly(mapping=aes(x=price,y=..density..,color=cut),binwidth=500)
#freqploy()要求x軸是連續(xù)型變量

屏幕快照 2020-06-03 下午8.17.08.png

2.按分類(lèi)變量的分組顯示連續(xù)變量分布的另一種方式是箱線圖。

ggplot(diamonds)+
  geom_boxplot(mapping=aes(x=price,y=cut))+
  coord_flip() #翻轉(zhuǎn)90度
屏幕快照 2020-06-03 下午8.36.57.png

mpg數(shù)據(jù)集,公路里程因汽車(chē)類(lèi)別的不同會(huì)有怎樣的變化

ggplot(mpg,mapping=aes(x=class,y=hwy))+
  geom_boxplot()

為了更容易發(fā)現(xiàn)浴室,可以基于hwy值的中位數(shù)對(duì)class進(jìn)行重新排序:

```{r}
ggplot(mpg)+
  geom_boxplot(mapping=aes(x=reorder(class,hwy,FUN = median)))
#reorder()函數(shù),第一個(gè)參數(shù)是分類(lèi)變量,第二個(gè)參數(shù)通常是數(shù)值型變量,根據(jù)第二個(gè)參數(shù)的值對(duì)第一個(gè)變量進(jìn)行排序
屏幕快照 2020-06-04 上午9.17.25.png

上圖的y軸不太對(duì),why??????

二 兩個(gè)分類(lèi)變量

1 想對(duì)兩個(gè)分類(lèi)變量間的相關(guān)變動(dòng)進(jìn)行可視化表示,需要計(jì)算出每個(gè)變量組合中的觀測(cè)數(shù)量

ggplot(diamonds)+
  geom_count(mapping=aes(x=cut,y=color))
屏幕快照 2020-06-04 下午4.05.29.png

2 計(jì)算變量組合中的觀測(cè)數(shù)量的另一種方法是用dplyr

diamonds %>% 
  count(color,cut) %>% 
  ggplot(mapping=aes(x=color,y=cut))+
  geom_tile(mapping=aes(fill=n))
#geom_tile()函數(shù)和填充圖形屬性進(jìn)行可視化
屏幕快照 2020-06-04 下午4.17.24.png

三 兩個(gè)連續(xù)變量

1 散點(diǎn)圖

ggplot(diamonds)+
  geom_point(mapping=aes(x=carat,y=price))
#可以看到鉆石的克拉數(shù)和價(jià)值之間存在一種指數(shù)關(guān)系

alpha圖形屬性添加透明度可以解決黑點(diǎn)堆積

ggplot(diamonds)+
  geom_point(mapping=aes(x=carat,y=price),alpha=1/100)
屏幕快照 2020-06-04 下午4.23.09.png

2.兩個(gè)維度的分箱圖
geom_bin2d()函數(shù)將坐標(biāo)平面分為二維分箱,并使用一種填充顏色表示落入每個(gè)分箱的數(shù)據(jù)點(diǎn)。

ggplot(diamonds)+
  geom_bin2d(mapping=aes(x=carat,y=price))
屏幕快照 2020-06-04 下午4.29.05.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容