Chapter 3 Descriptive Statistics

本篇是第三章，內(nèi)容是描述性統(tǒng)計(jì)。同時(shí)在這一章會(huì)開始滲透R語(yǔ)言的相關(guān)內(nèi)容。但整體還是以理論為主。

1.數(shù)據(jù)的預(yù)處理

本章正式進(jìn)入統(tǒng)計(jì)學(xué)的一大分支——描述統(tǒng)計(jì)。
很多人會(huì)疑惑做一個(gè)Project或者寫一篇Paper，最難的是什么？我曾經(jīng)不止一次說(shuō)過(guò)，最難的是數(shù)據(jù)。數(shù)據(jù)收集完成，項(xiàng)目完成了50%。而數(shù)據(jù)收集完成之后，很多人就會(huì)馬上開始進(jìn)行數(shù)據(jù)處理和分析，事實(shí)上這是不對(duì)的。因?yàn)槟悴磺宄愕臄?shù)據(jù)是否有問題（什么問題都有可能，會(huì)導(dǎo)致你的分析出現(xiàn)各種問題）。所以你拿到數(shù)據(jù)后的第一步，應(yīng)該是對(duì)數(shù)據(jù)做預(yù)處理，或者用大數(shù)據(jù)時(shí)代的話——叫數(shù)據(jù)清洗或者ETL（Extract-Transform-Load），我想預(yù)處理還會(huì)占掉Project花費(fèi)時(shí)間的20%吧。
那么接下來(lái)先介紹下預(yù)處理的內(nèi)容。
數(shù)據(jù)預(yù)處理：

數(shù)據(jù)審核

數(shù)據(jù)篩選

數(shù)據(jù)排序

數(shù)據(jù)透視

數(shù)據(jù)審核，包括直接數(shù)據(jù)的完整性審核以及準(zhǔn)確性審核（是否客觀），間接數(shù)據(jù)的適用性審核以及時(shí)效性審核；數(shù)據(jù)篩選，就是對(duì)于數(shù)據(jù)里面的異常值（存在錯(cuò)誤，不符合調(diào)查要求等），在現(xiàn)在來(lái)說(shuō)就是dirty data（臟數(shù)據(jù)），將這些數(shù)據(jù)剔除；數(shù)據(jù)排序，事實(shí)上數(shù)據(jù)排序更多的目的還是為了更方便地發(fā)現(xiàn)異常值，是做數(shù)據(jù)清洗的手段；數(shù)據(jù)透視，借鑒于Excel里的數(shù)據(jù)透視表，事實(shí)上就是數(shù)據(jù)的重鑄，融合和匯總，從而得到我們需要的數(shù)據(jù)。
總的來(lái)說(shuō)，前期預(yù)處理需要對(duì)數(shù)據(jù)進(jìn)行排序、匯總和觀察發(fā)現(xiàn)相關(guān)的數(shù)據(jù)異常值等。在這個(gè)階段，不喜編程的同學(xué)推薦用Excel來(lái)做數(shù)據(jù)預(yù)處理（通過(guò)數(shù)據(jù)透視圖、替換數(shù)據(jù)、排序、Countif等工具和Excel函數(shù)高效完成預(yù)處理），更高級(jí)的一般可以考慮用R、Python等編程語(yǔ)言進(jìn)行清洗預(yù)處理，或者像在數(shù)據(jù)庫(kù)里用SQL語(yǔ)句也是可以的。
響應(yīng)一下本部分的標(biāo)題，R語(yǔ)言實(shí)現(xiàn)，交代幾個(gè)簡(jiǎn)單的語(yǔ)句進(jìn)行數(shù)據(jù)清洗。

#x為數(shù)據(jù)框、數(shù)組或矩陣，通過(guò)summary可以獲取平均值、中位數(shù)、四分位數(shù)等，如果有缺失數(shù)據(jù)，則會(huì)顯示NAN等。
summary(x)

#表示y是按照x的第一行先升序排列，然后再按x的第二列降序排列得到的數(shù)據(jù)，-表示降序。
y<-x[order(x[1],-x[2)]

#去除NA所在行和列
y<-na.omit(x)

2.數(shù)據(jù)的整理與展示

這部分的數(shù)據(jù)整理是在預(yù)處理完畢后，根據(jù)我們需要對(duì)數(shù)據(jù)進(jìn)行整理和簡(jiǎn)單可視化（多畫圖，多可視化，你能發(fā)現(xiàn)很多事情）。那么第一步就是先把我們的數(shù)據(jù)類型搞清楚。因?yàn)椴煌愋蛿?shù)據(jù)，整理方式不同。
對(duì)于分類數(shù)據(jù)和順序數(shù)據(jù)主要是分類整理。
對(duì)于數(shù)值數(shù)據(jù)主要是做分組整理。

分類數(shù)據(jù)的整理核心就是計(jì)算頻數(shù)、比例、百分比、比率，一般可視化用條形圖（柱狀圖）。此外還可以考慮使用帕累托圖。帕累托圖（Pareto chart）是以意大利經(jīng)濟(jì)學(xué)家V.Pareto的名字而命名的。這是一個(gè)雙坐標(biāo)軸圖，一側(cè)縱坐標(biāo)是頻率，另一側(cè)縱坐標(biāo)是累計(jì)頻率。是在條形圖基礎(chǔ)上加上一條折線圖（累計(jì)頻率曲線）。通常用帕累托圖來(lái)表示，就是研究事物特征是否存在二八定律（20/80規(guī)律，典型案例：20%的人擁有80%的財(cái)富）。
除此之外，分類型數(shù)據(jù)還可以用餅圖來(lái)進(jìn)行可視化。

順序數(shù)據(jù)則一般選用累計(jì)頻率曲線和環(huán)狀圖進(jìn)行可視化。

數(shù)值型數(shù)據(jù)的可視化方式是最多的。主要包括了直方圖、折線圖（頻數(shù)多邊形圖）、打點(diǎn)圖、莖葉圖、箱線圖、線圖（時(shí)間序列數(shù)據(jù)）、雙變量問題（二維散點(diǎn)圖與散點(diǎn)圖矩陣）、三變量問題（三維散點(diǎn)圖或氣泡圖）、多變量問題（雷達(dá)圖）。

其中這里面有一個(gè)直方圖分組使用的經(jīng)驗(yàn)公式。

K為組數(shù)，n為樣本數(shù)。確定組數(shù)，通過(guò)極差和組數(shù)求組距即可分組。
這部分有很多可視化內(nèi)容，暫時(shí)就不在這部分講述了（第14章會(huì)重點(diǎn)講解幾個(gè)典型的可視化方式的R語(yǔ)言繪制)。
最后小結(jié)下數(shù)據(jù)可視化的內(nèi)容。

品質(zhì)數(shù)據(jù)——先制作匯總表，然后可以采用條形圖、餅圖、環(huán)狀圖可視化；

數(shù)值數(shù)據(jù)中的原始數(shù)據(jù)——莖葉圖、箱線圖可視化；

數(shù)值數(shù)據(jù)中的分組數(shù)據(jù)——直方圖、折線圖；

數(shù)值數(shù)據(jù)中的時(shí)間序列數(shù)據(jù)——線圖；

數(shù)值數(shù)據(jù)中的多元數(shù)據(jù)——散點(diǎn)圖、氣泡圖、雷達(dá)圖。

此外對(duì)于圖表可視化來(lái)說(shuō)，好的圖表可視化應(yīng)當(dāng)具有如下特征：

顯示數(shù)據(jù)；

讓讀者把注意力集中在圖表的內(nèi)容上，而不是制作圖表的程序上；

強(qiáng)調(diào)數(shù)據(jù)之間的比較；

服務(wù)于一個(gè)明確的目的；

有對(duì)圖表的統(tǒng)計(jì)描述和文字說(shuō)明。

鑒別圖表優(yōu)劣的準(zhǔn)則：

精心設(shè)計(jì)、有助于洞察問題的實(shí)質(zhì)；

使復(fù)雜的觀點(diǎn)得到簡(jiǎn)明、確切、高效的闡述；

能在最短的時(shí)間內(nèi)以最少的筆墨給讀者提供最大量的信息；

表述數(shù)據(jù)的真實(shí)情況，避免歪曲。

當(dāng)然圖表可視化不僅僅只有R，Excel、SPSS、Tableau都可以使用。

3.數(shù)據(jù)的概括性度量

當(dāng)你面對(duì)一堆數(shù)據(jù)時(shí)，你還是不知道從何下手，因?yàn)槲覀儾豢赡軓?qiáng)行記住每個(gè)數(shù)據(jù)，然后在腦海里對(duì)各個(gè)數(shù)據(jù)的分布進(jìn)行比較，所以科學(xué)家們?cè)谔幚頂?shù)據(jù)的時(shí)候，都希望用數(shù)據(jù)規(guī)模盡可能小的一個(gè)指標(biāo)去描述數(shù)據(jù)盡可能多的信息。那么從數(shù)據(jù)的角度出發(fā)，針對(duì)數(shù)據(jù)分布的不同方面，科學(xué)家們也都找出了不相同的指標(biāo)來(lái)進(jìn)行描述。
簡(jiǎn)單來(lái)說(shuō)，數(shù)據(jù)分布包括了集中趨勢(shì)、離散程度、分布形狀三個(gè)方面的內(nèi)容。

集中趨勢(shì)：眾數(shù)、中位數(shù)、平均數(shù)；

離散程度：異眾比率、四分位差、極差、方差或標(biāo)準(zhǔn)差、離散系數(shù)；

分布形狀：偏態(tài)系數(shù)、峰態(tài)系數(shù)。

集中趨勢(shì)的幾個(gè)指標(biāo)想必大家較為清楚，就不展開詳述了。而離散程度中極差、方差和標(biāo)準(zhǔn)差也是如此，同上，不過(guò)單獨(dú)解釋下自由度的概念（一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個(gè)數(shù)，與附加給獨(dú)立觀測(cè)值的約束或限制的個(gè)數(shù)
有關(guān)，比如三個(gè)數(shù)據(jù)的均值已經(jīng)知道，知道其中兩個(gè)數(shù)據(jù)，第三個(gè)數(shù)據(jù)是固定的，也就是說(shuō)在添加了均值這個(gè)約束之后，觀測(cè)數(shù)據(jù)自由取值的個(gè)數(shù)是n-1=2個(gè)）。這里重點(diǎn)解釋異眾比率，四分位差、離散系數(shù)、偏態(tài)系數(shù)和峰態(tài)系數(shù)。
異眾比率——從字面理解即可，非眾數(shù)的比率。也就是——不是眾數(shù)的組的頻數(shù)占總頻數(shù)的比率。
四分位差——上四分位數(shù)減去下四分位數(shù)。
離散系數(shù)——也就是標(biāo)準(zhǔn)差系數(shù)，即用標(biāo)準(zhǔn)差除以平均值。
偏態(tài)系數(shù)——用來(lái)描述數(shù)據(jù)分布特征（分布偏斜程度）的系數(shù)，該系數(shù)>0為右偏分布，<0為左偏分布，=0為對(duì)稱分布。
峰態(tài)系數(shù)——用來(lái)描述數(shù)據(jù)分布特征（分布扁平程度）的系數(shù)，該系數(shù)>0為尖峰分布，<0為扁平分布，=0為扁平峰度適中。
最后單列出以上部分指標(biāo)的公式（有數(shù)學(xué)恐懼癥的同學(xué)請(qǐng)?zhí)^(guò)）：

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

應(yīng)用統(tǒng)計(jì)學(xué)與R語(yǔ)言實(shí)現(xiàn)學(xué)習(xí)筆記（三）——描述性統(tǒng)計(jì)

應(yīng)用統(tǒng)計(jì)學(xué)與R語(yǔ)言實(shí)現(xiàn)學(xué)習(xí)筆記（三）——描述性統(tǒng)計(jì)

Chapter 3 Descriptive Statistics

1.數(shù)據(jù)的預(yù)處理

2.數(shù)據(jù)的整理與展示

3.數(shù)據(jù)的概括性度量

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

應(yīng)用統(tǒng)計(jì)學(xué)與R語(yǔ)言實(shí)現(xiàn)學(xué)習(xí)筆記（三）——描述性統(tǒng)計(jì)

Chapter 3 Descriptive Statistics

1.數(shù)據(jù)的預(yù)處理

2.數(shù)據(jù)的整理與展示

3.數(shù)據(jù)的概括性度量

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av