探索性數(shù)據(jù)分析EDA-1

1、EDA:Exploratory Data Analysis

使用tidyverse+ggplot2


2、探索性數(shù)據(jù)分析先從問題開始,從一大串問題開始,不斷找答案:變量的variation 、變量的 covariation

區(qū)分概念:變量、值 、觀測(cè)、列表數(shù)據(jù)

3、variation:變量如何改變(變化趨勢(shì)),比如,同一個(gè)對(duì)象,測(cè)量兩次會(huì)有不一樣的結(jié)果

3.1先探索變零值的分布趨勢(shì)


如果是分類變量,用geom_bar()或count()

ggplot(data = diamonds) + geom_bar(mapping = aes(x = cut))

diamonds %>% count(cut)

如果是連續(xù)變量,用geom_histogram()或count(),要設(shè)置計(jì)算的間隔:

ggplot(data =diamonds)+ geom_histogram(mapping =aes(x =carat),binwidth =0.5)

diamonds %>% count(cut_width(carat, 0.5))

如果查看多個(gè)連續(xù)變量的分布:

ggplot(data = diamonds, mapping = aes(x = carat, colour = cut)) + geom_freqpoly(binwidth = 0.1)

3.2同一變量,什么情況下分布多,什么情況下分布少(clusters),思考什么原因?qū)е碌?/p>

比如,為什么carat(鉆石重量)大于3的值很少呢?

3.3異常值, coord_cartesian將縱坐標(biāo)壓縮,可以清晰個(gè)別離群值

ggplot(diamonds) + geom_histogram(mapping = aes(x = y), binwidth = 0.5) + coord_cartesian(ylim = c(0, 50))

發(fā)現(xiàn),異常值0,~30,~60

查看異常值

unusual <- diamonds %>% filter(y < 3 | y > 20) %>% select(price, x, y, z) %>% arrange(y)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 畢業(yè)兩年以后,母親開始給我安排相親,因?yàn)槲乙粋€(gè)女朋友都沒找過。母親不相信她優(yōu)秀的兒子會(huì)找不到女朋友,那么只有一個(gè)原...
    book君閱讀 521評(píng)論 2 1
  • 1 夜已深,天已涼,寂靜的村里已經(jīng)看不見什么燈火了,大多數(shù)人都已經(jīng)在溫暖的被窩里,酣然入睡。可是在村頭的空曠的莊稼...
    小鹿故事集閱讀 362評(píng)論 2 4
  • (σ???)σ在車上碼的字,算是完成學(xué)校的一項(xiàng)任務(wù)… 日漸發(fā)現(xiàn)隨筆觸發(fā)這種東西越寫越上癮,我可能真的中了文字的毒哈...
    仙貝baby閱讀 238評(píng)論 0 0

友情鏈接更多精彩內(nèi)容