簡介
探索性數(shù)據(jù)分析(exploratory data analysis, EDA):使用可視化方法和數(shù)據(jù)轉(zhuǎn)換來系統(tǒng)化地探索數(shù)據(jù)。EDA 是一個(gè)可迭代的循環(huán)過程,具有以下作用:
(1) 對數(shù)據(jù)提出問題。
(2) 對數(shù)據(jù)進(jìn)行可視化、轉(zhuǎn)換和建模,進(jìn)而找出問題的答案。
(3) 使用上一個(gè)步驟的結(jié)果來精煉問題,并提出新問題。
術(shù)語
? 變量:一種可測量的數(shù)量、質(zhì)量或?qū)傩浴?br>
? 值:變量在測量時(shí)的狀態(tài)。變量值在每次測量之間可以發(fā)生改變。
? 觀測:或稱個(gè)案,指在相同條件下進(jìn)行的一組測量(通常,一個(gè)觀測中的所有測量是在同一時(shí)間對同一對象進(jìn)行的)。一個(gè)觀測會包含多個(gè)值,每個(gè)值關(guān)聯(lián)到不同的變量。有時(shí)我們會將觀測稱為數(shù)據(jù)點(diǎn)。
? 表格數(shù)據(jù):一組值的集合,其中每個(gè)值都關(guān)聯(lián)一個(gè)變量和一個(gè)觀測。如果每個(gè)值都有自己所屬的“單元”,每個(gè)變量都有自己所屬的列,每個(gè)觀測都有自己所屬的行,那么表格數(shù)據(jù)就是整潔的。
變動(dòng)
變動(dòng)是每次測量時(shí)數(shù)據(jù)值的變化趨勢。
對分布進(jìn)行可視化表示
條形圖適合用于對分類變量的分布進(jìn)行展示


典型值和異常值
條形圖和直方圖都用比較高的條形表示變量中的常見值,而用比較矮的條形表示變量中不常見的值。沒有條形的位置表示數(shù)據(jù)中沒有這樣的值。
異常值是與眾不同的觀測或者是模式之外的數(shù)據(jù)點(diǎn)。有時(shí)異常值是由于數(shù)據(jù)錄入錯(cuò)誤而產(chǎn)生的;有時(shí)異常值則能開辟出一塊重要的新科學(xué)領(lǐng)域。
缺失值
如果在數(shù)據(jù)集中發(fā)現(xiàn)異常值,但只想繼續(xù)進(jìn)行其余的分析工作,那么有 2 種選擇:
? 將帶有可疑值的行全部丟棄
?使用缺失值來代替異常值
ifelse()函數(shù)有三個(gè)參數(shù):第一個(gè)參數(shù) test 應(yīng)該是一個(gè)邏輯向量,如果 test 為 TRUE,函數(shù)結(jié)果就是第二個(gè)參數(shù) yes 的值;如果 test 為 FALSE,函數(shù)結(jié)果就是第三個(gè)參數(shù) no 的值。

有缺失值存在時(shí),在作圖時(shí)會發(fā)出警告,可以使用na.rm = TRUE使作圖時(shí)自動(dòng)出去na值:


相關(guān)變動(dòng)
如果變動(dòng)描述的是一個(gè)變量內(nèi)部的行為,那么相關(guān)變動(dòng)描述的就是多個(gè)變量之間的行為。相關(guān)變動(dòng)是兩個(gè)或多個(gè)變量以相關(guān)的方式共同變化所表現(xiàn)出的趨勢。
分類變量與連續(xù)變量
分類變量可以將連續(xù)變量分為不同的組,然后展示不同分組情況下的連續(xù)變量分布。展示分布的方式包括直方圖,密度曲線圖,箱線圖等。
直方圖:

密度曲線圖:

箱線圖:
箱線圖是對變量值分布的一種簡單可視化表示,這種圖在統(tǒng)計(jì)學(xué)家中非常流行。每張箱線圖都包括以下內(nèi)容。
? 一個(gè)長方形箱子,下面的邊表示分布的第 25 個(gè)百分位數(shù),上面的邊表示分布的第 75 個(gè)百分位數(shù), 上下兩邊的距離稱為四分位距。箱子的中部有一條橫線, 表示分布的中位數(shù),也就是分布的第 50 個(gè)百分位數(shù)。這三條線可以表示分布的分散情況,還可以幫助我們明確數(shù)據(jù)是關(guān)于中位數(shù)對稱的,還是偏向某一側(cè)。
? 圓點(diǎn)表示落在箱子上下兩邊 1.5 倍四分位距外的觀測,這些離群點(diǎn)就是異常值,因此需要單獨(dú)繪出。
? 從箱子上下兩邊延伸出的直線(或稱為須)可以到達(dá)分布中最遠(yuǎn)的非離群點(diǎn)處。


將箱線圖旋轉(zhuǎn)90度:

兩個(gè)分類變量
要想對兩個(gè)分類變量間的相關(guān)變動(dòng)進(jìn)行可視化表示,需要計(jì)算出每個(gè)變量組合中的觀測數(shù)量。
geom_count() 函數(shù):

dplyr中的count()函數(shù):

兩個(gè)連續(xù)變量
對于兩個(gè)連續(xù)變量間的相關(guān)變動(dòng)的可視化表示,一般來說散點(diǎn)圖展示兩個(gè)連續(xù)變量之間的相關(guān)性是最合適不過的。

如果相關(guān)性較好,可以繪制其他的可視化圖形,其可視化效果也會呈現(xiàn)出較好的相關(guān)性。

模式與模型
模式是數(shù)據(jù)科學(xué)中最有效的工具之一,因?yàn)槠淇梢越沂鞠嚓P(guān)變動(dòng)。如果說變動(dòng)會生成不確定性,那么相關(guān)變動(dòng)就是減少不確定性。如果兩個(gè)變量是共同變化的,就可以使用一個(gè)變量的值來更好地預(yù)測另一個(gè)變量的值。如果相關(guān)變動(dòng)可以歸因于一種因果關(guān)系(一種特殊情況),那么就可以使用一個(gè)變量的值來控制另一個(gè)變量的值。
模型是用于從數(shù)據(jù)中抽取模式的一種工具,擬合出一個(gè)較好的模型是一個(gè)很復(fù)雜的過程,需要大量的數(shù)據(jù)作為鋪墊。
ggplot2調(diào)用
ggplot() 函數(shù)的前兩個(gè)參數(shù)是 data 和 mapping, aes() 函數(shù)的前兩個(gè)參數(shù)是 x 和 y。