Chapter 3 Descriptive Statistics
本篇是第三章,內(nèi)容是描述性統(tǒng)計(jì)。同時(shí)在這一章會(huì)開始滲透R語(yǔ)言的相關(guān)內(nèi)容。但整體還是以理論為主。
1.數(shù)據(jù)的預(yù)處理
本章正式進(jìn)入統(tǒng)計(jì)學(xué)的一大分支——描述統(tǒng)計(jì)。
很多人會(huì)疑惑做一個(gè)Project或者寫一篇Paper,最難的是什么?我曾經(jīng)不止一次說(shuō)過(guò),最難的是數(shù)據(jù)。數(shù)據(jù)收集完成,項(xiàng)目完成了50%。而數(shù)據(jù)收集完成之后,很多人就會(huì)馬上開始進(jìn)行數(shù)據(jù)處理和分析,事實(shí)上這是不對(duì)的。因?yàn)槟悴磺宄愕臄?shù)據(jù)是否有問題(什么問題都有可能,會(huì)導(dǎo)致你的分析出現(xiàn)各種問題)。所以你拿到數(shù)據(jù)后的第一步,應(yīng)該是對(duì)數(shù)據(jù)做預(yù)處理,或者用大數(shù)據(jù)時(shí)代的話——叫數(shù)據(jù)清洗或者ETL(Extract-Transform-Load),我想預(yù)處理還會(huì)占掉Project花費(fèi)時(shí)間的20%吧。
那么接下來(lái)先介紹下預(yù)處理的內(nèi)容。
數(shù)據(jù)預(yù)處理:
- 數(shù)據(jù)審核
- 數(shù)據(jù)篩選
- 數(shù)據(jù)排序
- 數(shù)據(jù)透視
數(shù)據(jù)審核,包括直接數(shù)據(jù)的完整性審核以及準(zhǔn)確性審核(是否客觀),間接數(shù)據(jù)的適用性審核以及時(shí)效性審核;數(shù)據(jù)篩選,就是對(duì)于數(shù)據(jù)里面的異常值(存在錯(cuò)誤,不符合調(diào)查要求等),在現(xiàn)在來(lái)說(shuō)就是dirty data(臟數(shù)據(jù)),將這些數(shù)據(jù)剔除;數(shù)據(jù)排序,事實(shí)上數(shù)據(jù)排序更多的目的還是為了更方便地發(fā)現(xiàn)異常值,是做數(shù)據(jù)清洗的手段;數(shù)據(jù)透視,借鑒于Excel里的數(shù)據(jù)透視表,事實(shí)上就是數(shù)據(jù)的重鑄,融合和匯總,從而得到我們需要的數(shù)據(jù)。
總的來(lái)說(shuō),前期預(yù)處理需要對(duì)數(shù)據(jù)進(jìn)行排序、匯總和觀察發(fā)現(xiàn)相關(guān)的數(shù)據(jù)異常值等。在這個(gè)階段,不喜編程的同學(xué)推薦用Excel來(lái)做數(shù)據(jù)預(yù)處理(通過(guò)數(shù)據(jù)透視圖、替換數(shù)據(jù)、排序、Countif等工具和Excel函數(shù)高效完成預(yù)處理),更高級(jí)的一般可以考慮用R、Python等編程語(yǔ)言進(jìn)行清洗預(yù)處理,或者像在數(shù)據(jù)庫(kù)里用SQL語(yǔ)句也是可以的。
響應(yīng)一下本部分的標(biāo)題,R語(yǔ)言實(shí)現(xiàn),交代幾個(gè)簡(jiǎn)單的語(yǔ)句進(jìn)行數(shù)據(jù)清洗。
#x為數(shù)據(jù)框、數(shù)組或矩陣,通過(guò)summary可以獲取平均值、中位數(shù)、四分位數(shù)等,如果有缺失數(shù)據(jù),則會(huì)顯示NAN等。
summary(x)
#表示y是按照x的第一行先升序排列,然后再按x的第二列降序排列得到的數(shù)據(jù),-表示降序。
y<-x[order(x[1],-x[2)]
#去除NA所在行和列
y<-na.omit(x)
2.數(shù)據(jù)的整理與展示
這部分的數(shù)據(jù)整理是在預(yù)處理完畢后,根據(jù)我們需要對(duì)數(shù)據(jù)進(jìn)行整理和簡(jiǎn)單可視化(多畫圖,多可視化,你能發(fā)現(xiàn)很多事情)。那么第一步就是先把我們的數(shù)據(jù)類型搞清楚。因?yàn)椴煌愋蛿?shù)據(jù),整理方式不同。
對(duì)于分類數(shù)據(jù)和順序數(shù)據(jù)主要是分類整理。
對(duì)于數(shù)值數(shù)據(jù)主要是做分組整理。
- 分類數(shù)據(jù)的整理核心就是計(jì)算頻數(shù)、比例、百分比、比率,一般可視化用條形圖(柱狀圖)。此外還可以考慮使用帕累托圖。帕累托圖(Pareto chart)是以意大利經(jīng)濟(jì)學(xué)家V.Pareto的名字而命名的。這是一個(gè)雙坐標(biāo)軸圖,一側(cè)縱坐標(biāo)是頻率,另一側(cè)縱坐標(biāo)是累計(jì)頻率。是在條形圖基礎(chǔ)上加上一條折線圖(累計(jì)頻率曲線)。通常用帕累托圖來(lái)表示,就是研究事物特征是否存在二八定律(20/80規(guī)律,典型案例:20%的人擁有80%的財(cái)富)。
除此之外,分類型數(shù)據(jù)還可以用餅圖來(lái)進(jìn)行可視化。- 順序數(shù)據(jù)則一般選用累計(jì)頻率曲線和環(huán)狀圖進(jìn)行可視化。
- 數(shù)值型數(shù)據(jù)的可視化方式是最多的。主要包括了直方圖、折線圖(頻數(shù)多邊形圖)、打點(diǎn)圖、莖葉圖、箱線圖、線圖(時(shí)間序列數(shù)據(jù))、雙變量問題(二維散點(diǎn)圖與散點(diǎn)圖矩陣)、三變量問題(三維散點(diǎn)圖或氣泡圖)、多變量問題(雷達(dá)圖)。
其中這里面有一個(gè)直方圖分組使用的經(jīng)驗(yàn)公式。
K為組數(shù),n為樣本數(shù)。確定組數(shù),通過(guò)極差和組數(shù)求組距即可分組。
這部分有很多可視化內(nèi)容,暫時(shí)就不在這部分講述了(第14章會(huì)重點(diǎn)講解幾個(gè)典型的可視化方式的R語(yǔ)言繪制)。
最后小結(jié)下數(shù)據(jù)可視化的內(nèi)容。
- 品質(zhì)數(shù)據(jù)——先制作匯總表,然后可以采用條形圖、餅圖、環(huán)狀圖可視化;
- 數(shù)值數(shù)據(jù)中的原始數(shù)據(jù)——莖葉圖、箱線圖可視化;
- 數(shù)值數(shù)據(jù)中的分組數(shù)據(jù)——直方圖、折線圖;
- 數(shù)值數(shù)據(jù)中的時(shí)間序列數(shù)據(jù)——線圖;
- 數(shù)值數(shù)據(jù)中的多元數(shù)據(jù)——散點(diǎn)圖、氣泡圖、雷達(dá)圖。
此外對(duì)于圖表可視化來(lái)說(shuō),好的圖表可視化應(yīng)當(dāng)具有如下特征:
- 顯示數(shù)據(jù);
- 讓讀者把注意力集中在圖表的內(nèi)容上,而不是制作圖表的程序上;
- 強(qiáng)調(diào)數(shù)據(jù)之間的比較;
- 服務(wù)于一個(gè)明確的目的;
- 有對(duì)圖表的統(tǒng)計(jì)描述和文字說(shuō)明。
鑒別圖表優(yōu)劣的準(zhǔn)則:
- 精心設(shè)計(jì)、 有助于洞察問題的實(shí)質(zhì);
- 使復(fù)雜的觀點(diǎn)得到簡(jiǎn)明、 確切、 高效的闡述;
- 能在最短的時(shí)間內(nèi)以最少的筆墨給讀者提供最大量的信息;
- 表述數(shù)據(jù)的真實(shí)情況, 避免歪曲。
當(dāng)然圖表可視化不僅僅只有R,Excel、SPSS、Tableau都可以使用。
3.數(shù)據(jù)的概括性度量
當(dāng)你面對(duì)一堆數(shù)據(jù)時(shí),你還是不知道從何下手,因?yàn)槲覀儾豢赡軓?qiáng)行記住每個(gè)數(shù)據(jù),然后在腦海里對(duì)各個(gè)數(shù)據(jù)的分布進(jìn)行比較,所以科學(xué)家們?cè)谔幚頂?shù)據(jù)的時(shí)候,都希望用數(shù)據(jù)規(guī)模盡可能小的一個(gè)指標(biāo)去描述數(shù)據(jù)盡可能多的信息。那么從數(shù)據(jù)的角度出發(fā),針對(duì)數(shù)據(jù)分布的不同方面,科學(xué)家們也都找出了不相同的指標(biāo)來(lái)進(jìn)行描述。
簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)分布包括了集中趨勢(shì)、離散程度、分布形狀三個(gè)方面的內(nèi)容。
- 集中趨勢(shì):眾數(shù)、中位數(shù)、平均數(shù);
- 離散程度:異眾比率、四分位差、極差、方差或標(biāo)準(zhǔn)差、離散系數(shù);
- 分布形狀:偏態(tài)系數(shù)、峰態(tài)系數(shù)。
集中趨勢(shì)的幾個(gè)指標(biāo)想必大家較為清楚,就不展開詳述了。而離散程度中極差、方差和標(biāo)準(zhǔn)差也是如此,同上,不過(guò)單獨(dú)解釋下自由度的概念(一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個(gè)數(shù),與附加給獨(dú)立觀測(cè)值的約束或限制的個(gè)數(shù)
有關(guān),比如三個(gè)數(shù)據(jù)的均值已經(jīng)知道,知道其中兩個(gè)數(shù)據(jù),第三個(gè)數(shù)據(jù)是固定的,也就是說(shuō)在添加了均值這個(gè)約束之后,觀測(cè)數(shù)據(jù)自由取值的個(gè)數(shù)是n-1=2個(gè))。這里重點(diǎn)解釋異眾比率,四分位差、離散系數(shù)、偏態(tài)系數(shù)和峰態(tài)系數(shù)。
異眾比率——從字面理解即可,非眾數(shù)的比率。也就是——不是眾數(shù)的組的頻數(shù)占總頻數(shù)的比率。
四分位差——上四分位數(shù)減去下四分位數(shù)。
離散系數(shù)——也就是標(biāo)準(zhǔn)差系數(shù),即用標(biāo)準(zhǔn)差除以平均值。
偏態(tài)系數(shù)——用來(lái)描述數(shù)據(jù)分布特征(分布偏斜程度)的系數(shù),該系數(shù)>0為右偏分布,<0為左偏分布,=0為對(duì)稱分布。
峰態(tài)系數(shù)——用來(lái)描述數(shù)據(jù)分布特征(分布扁平程度)的系數(shù),該系數(shù)>0為尖峰分布,<0為扁平分布,=0為扁平峰度適中。
最后單列出以上部分指標(biāo)的公式(有數(shù)學(xué)恐懼癥的同學(xué)請(qǐng)?zhí)^(guò)):