在實(shí)際工作中,對(duì)于剛接手的數(shù)據(jù)集,在正式處理需求前,除了需要梳理清楚數(shù)據(jù)上報(bào)及轉(zhuǎn)發(fā)環(huán)節(jié),還需要對(duì)數(shù)據(jù)集進(jìn)行質(zhì)量評(píng)估和了解數(shù)據(jù)集的描述性統(tǒng)計(jì)特征。在很多公司里,數(shù)據(jù)分析師「觸手可及」的便是數(shù)據(jù)開(kāi)發(fā)工程師處理過(guò)后的數(shù)據(jù),在上述環(huán)節(jié)中,分析師尤其需要重點(diǎn)關(guān)注數(shù)據(jù)集的描述性統(tǒng)計(jì)特征,了解不同類(lèi)型的數(shù)據(jù)的集中、離散和分布程度,以便在業(yè)務(wù)提數(shù)時(shí),補(bǔ)充合理的篩選條件,避免計(jì)算出來(lái)的指標(biāo)有誤導(dǎo)性。
數(shù)據(jù)描述的三個(gè)維度
所有的結(jié)構(gòu)化數(shù)據(jù)都可以從三個(gè)維度進(jìn)行描述,這三個(gè)維度就是:
- 數(shù)據(jù)的集中趨勢(shì)描述:算數(shù)平均值,加權(quán)平均值,調(diào)和平均值,幾何平均值,眾數(shù),中位數(shù)
- 數(shù)據(jù)的離散程度描述:全距,平均差,總體方差和標(biāo)準(zhǔn)差,樣本方差和標(biāo)準(zhǔn)差,離散洗漱,四分位極差和四分位差
- 數(shù)據(jù)的分布形態(tài)描述:峰度與偏度,概率及概率分布,二項(xiàng)概率分布,多項(xiàng)概率分布,泊松概率分布,指數(shù)概率分布,正態(tài)概率分布
數(shù)據(jù)的集中趨勢(shì)描述
尋找反映數(shù)據(jù)集某一特征的代表值或中心值,表明所研究的對(duì)象在一定的條件下的共同性質(zhì)和一般水平。
1)平均值
算術(shù)平均值
概念:將數(shù)據(jù)集合的所有數(shù)據(jù)值相加的和除以數(shù)據(jù)值的個(gè)數(shù)就能得到簡(jiǎn)單算術(shù)平均值。
應(yīng)用:當(dāng)數(shù)據(jù)集合中有極大值或極小值存在時(shí),會(huì)對(duì)算術(shù)平均值產(chǎn)生很大的影響,計(jì)算結(jié)果會(huì)掩蓋數(shù)據(jù)集合的真實(shí)特征。
加權(quán)算術(shù)平均值
概念:將各數(shù)值乘以相應(yīng)的權(quán)重值,然后加總求和得到總體值,再除以總的數(shù)據(jù)值個(gè)數(shù)。
應(yīng)用:計(jì)算前需要設(shè)定好各數(shù)據(jù)值的權(quán)重,可是由「專(zhuān)家」根據(jù)具體業(yè)務(wù)設(shè)置,也可以根據(jù)各數(shù)據(jù)值的分布占比進(jìn)行設(shè)定。
- 幾何平均值
概念:有些數(shù)據(jù)之間的關(guān)系不是相加減關(guān)系,而是乘除關(guān)系,此時(shí)該用幾何平均值來(lái)表示由這樣的數(shù)值組成數(shù)據(jù)集合的集中趨勢(shì)。
應(yīng)用案例:銀行的平均存款利率、汽車(chē)工廠(chǎng)每條生產(chǎn)線(xiàn)的平均產(chǎn)品合格率,由于生產(chǎn)工藝是連續(xù)型生產(chǎn),只有上一道工序的合格品才能進(jìn)入下一道工序中,所以每道工序的合格率之間是乘積關(guān)系。假設(shè)每道工序的產(chǎn)品合格率分別是 85%、97%、94% 和 92%,求這條生產(chǎn)線(xiàn)的平均產(chǎn)品合格率。
2)中位數(shù)
概念:對(duì)于數(shù)據(jù)集合,將所有的數(shù)值按照它們的大小,從高到低進(jìn)行排序,如果數(shù)據(jù)集合包含的數(shù)值個(gè)數(shù)是奇數(shù),那么排在最中間的數(shù)值就是該數(shù)據(jù)集合的中位數(shù),如果數(shù)據(jù)集合的數(shù)值為偶數(shù),那么取最中間兩個(gè)數(shù)值的算術(shù)平均值作為中位數(shù)。
應(yīng)用:中位數(shù)能夠避免數(shù)據(jù)的平均水平受到異常值的影響,因此在做數(shù)據(jù)分析時(shí),不僅要計(jì)算算數(shù)平均數(shù),也計(jì)算中位數(shù),若兩個(gè)數(shù)字差距很大,就用中位數(shù)作為平均數(shù)。
3)眾數(shù)
概念:數(shù)據(jù)集合中出現(xiàn)次數(shù)最多的數(shù)值。
應(yīng)用:眾數(shù)真正的價(jià)值在于類(lèi)別型數(shù)據(jù),用于統(tǒng)計(jì)各類(lèi)別的數(shù)量。
數(shù)據(jù)的離散程度描述
1)極差
概念:數(shù)據(jù)集合中最大值與最小值的差值,表示整個(gè)數(shù)據(jù)集合能夠覆蓋的數(shù)值距離。
應(yīng)用:極差雖能表示數(shù)據(jù)集合的波動(dòng)大小,但沒(méi)有提供兩個(gè)極值以外的數(shù)值的信息,且對(duì)極值非常敏感,不太可靠,需要結(jié)合其他離散程度描述指標(biāo)來(lái)描述數(shù)據(jù)集合的離散程度。
2)平均偏差
概念:數(shù)據(jù)集合的所有數(shù)值與平均值的偏差(取絕對(duì)值)之和,除以數(shù)值個(gè)數(shù)。
3)方差和標(biāo)準(zhǔn)差
概念:描述數(shù)值與均值的偏離程度的指標(biāo)。方差是各個(gè)數(shù)據(jù)分別與其平均數(shù)之差的平方的和的平均數(shù)。而標(biāo)準(zhǔn)差則是方差的算術(shù)平方根。
應(yīng)用:方差/標(biāo)準(zhǔn)差值越大,代表大部分?jǐn)?shù)值和其平均值之間的差異較大,數(shù)據(jù)離散程度也就越大。在處理風(fēng)險(xiǎn)評(píng)估模型時(shí),一個(gè)數(shù)據(jù)的波動(dòng)性,說(shuō)明它涵蓋的信息量越大,信息量越大,不可知的因素越多,因此風(fēng)險(xiǎn)會(huì)更大。
4)樣本方差和標(biāo)準(zhǔn)差
概念:從數(shù)據(jù)總體中隨機(jī)抽取一定數(shù)量的樣本數(shù)值,然后用樣本數(shù)值的方差和標(biāo)準(zhǔn)差來(lái)估計(jì)總體的方差和標(biāo)準(zhǔn)差。
總體方差公式的分母就是數(shù)據(jù)集合的總數(shù)量 N,而樣本方差公式的分母卻是 n-1,即抽取樣本量 n 減去 1。主要是因?yàn)橛脴颖痉讲罟烙?jì)總體方差總有一定的偏差所在。
5)變異系數(shù)
概念:數(shù)據(jù)集合的標(biāo)準(zhǔn)差與算術(shù)平均值的比值。
應(yīng)用:無(wú)單位指標(biāo),不僅可以說(shuō)明同類(lèi)事物的相對(duì)離散程度,也可以說(shuō)明不同類(lèi)型事物的相對(duì)離散程度。
6)四分位極差
概念:對(duì)于數(shù)據(jù)集合,將所有的數(shù)值按照它們的大小,從高到低進(jìn)行排序,排在四分之一位置的數(shù)值即為第一四分位數(shù) Q1,以此類(lèi)推,分別有有第二、三、四四分位數(shù),Q2,Q3,Q4。四分位極差等于第一四分位數(shù)與第三四分位數(shù)的差值(Q3-Q1),這個(gè)差值區(qū)間包含了整個(gè)數(shù)據(jù)集合 50% 的數(shù)據(jù)值。
數(shù)據(jù)的分布形態(tài)描述
概率
概念:度量隨機(jī)事件中某一個(gè)結(jié)果發(fā)生的可能性大小的數(shù)值。
1)古典概率法:事件結(jié)果數(shù)目已知,且每種結(jié)果對(duì)應(yīng)的發(fā)生概率相等。
2)統(tǒng)計(jì)概率法:需要統(tǒng)計(jì)過(guò)往事件發(fā)生的結(jié)果頻數(shù)來(lái)確定。
3)主觀概率法:分析者對(duì)預(yù)測(cè)事件發(fā)生的概率做出主觀估計(jì)。
概率分布
概率分布是指事件的不同結(jié)果對(duì)應(yīng)的發(fā)生概率所構(gòu)成的分布,可以利用二維坐標(biāo)進(jìn)行形象的解釋。

- 離散型概率分布的概率函數(shù)被稱(chēng)為概率質(zhì)量函數(shù),對(duì)應(yīng)的 Y 軸表示某事件結(jié)果出現(xiàn)的概率。
- 連續(xù)型概率分布對(duì)應(yīng)的 Y 軸表示某結(jié)果的概率密度,X 軸任意一點(diǎn),它對(duì)應(yīng)的概率為 0,需要從 X 軸取某一段區(qū)間的積分面積得到事件的發(fā)生概率。
離散型概率分布
1)二項(xiàng)/多項(xiàng)分布
二項(xiàng)分布的試驗(yàn)結(jié)果只有兩個(gè)(成功和失敗,0 和 1),而多項(xiàng)分布的試驗(yàn)結(jié)果則多于兩個(gè),多項(xiàng)分布試驗(yàn)的特點(diǎn)如下:
- 每次試驗(yàn)有兩種或多種可能的結(jié)果,但是每種結(jié)果只會(huì)出現(xiàn)一個(gè);
- 每次結(jié)果都有各自發(fā)生的概率,所有結(jié)果的發(fā)生概率之和為 1;
- 每次試驗(yàn)相互獨(dú)立,每次試驗(yàn)結(jié)果都不受其他各次試驗(yàn)結(jié)果的影響(放回抽樣)。
假設(shè)某個(gè)多項(xiàng)分布試驗(yàn)有 k 個(gè)結(jié)果,每種結(jié)果發(fā)生的概率分別為 p1,p2…,pk(概率之和為 1)現(xiàn)在進(jìn)行 n 次多項(xiàng)分布試驗(yàn),假設(shè)觀測(cè)結(jié)果為 a1 的次數(shù)為 x1 次,結(jié)果為 a2 的次數(shù)為 x2 次,…,結(jié)果為 ak 的次數(shù)為 xk(n=x1+x2+…+xk),多么多項(xiàng)分布的聯(lián)合概率函數(shù)為:
而二項(xiàng)分布中,只有 和
(記為 q)兩種概率,因此二項(xiàng)分布的概率函數(shù)為:
上述公式里,P(X=x) 表示特定事件的概率,在實(shí)際工作中,常結(jié)合數(shù)學(xué)期望一起使用。
數(shù)學(xué)期望
數(shù)學(xué)期望是對(duì)隨機(jī)變量中心位置的一種度量,是試驗(yàn)中每次可能結(jié)果的乘以其結(jié)果的總和。
假設(shè)一等獎(jiǎng)成本 1000 元,二等獎(jiǎng)成本 500 元,三等獎(jiǎng)成本 100 元,歡迎下次再來(lái)當(dāng)然沒(méi)錢(qián),而用戶(hù)參加一次抽獎(jiǎng)需要 10 元。我們將概率問(wèn)題轉(zhuǎn)換成運(yùn)營(yíng)方的收益和成本計(jì)算期望
下面從公司角度分析活動(dòng)的盈虧成本:
| 一等獎(jiǎng) | 二等獎(jiǎng) | 三等獎(jiǎng) | 歡迎下次再來(lái) | |
|---|---|---|---|---|
| A 方案盈虧結(jié)果 | 10-1000 | 10-500 | 10-100 | 10 |
| P(X=x) | 5% | 10% | 20% | 65% |
| B 方案盈虧結(jié)果 | 10-1000 | 10-500 | 10-100 | 10 |
| P(X=x) | 10% | 10% | 10% | 70% |
A 方案的數(shù)學(xué)期望:
B 方案的數(shù)學(xué)期望:
A 方案能否期望沒(méi)抽獎(jiǎng)運(yùn)營(yíng)方虧損 110 元,B 方案則是虧損 150 元。
而從用戶(hù)的角度分析活動(dòng)的收益成本:
| 一等獎(jiǎng) | 二等獎(jiǎng) | 三等獎(jiǎng) | 歡迎下次再來(lái) | |
|---|---|---|---|---|
| A 方案收益結(jié)果 | 1000-10 | 500-10 | 100-10 | -10 |
| P(X=x) | 5% | 10% | 20% | 65% |
| B 方案收益結(jié)果 | 1000-10 | 500-10 | 100-10 | -10 |
| P(X=x) | 10% | 10% | 10% | 70% |
A 方案的數(shù)學(xué)期望:
B 方案的數(shù)學(xué)期望:
2)超幾何分布
在二項(xiàng)/多項(xiàng)分布試驗(yàn)中,每次試驗(yàn)結(jié)果的發(fā)生概率是不變的,而超幾何分布試驗(yàn)結(jié)果的概率會(huì)隨著每一次試驗(yàn)的發(fā)生而改變(無(wú)放回抽樣)。
- 若樣本容量 n = 1,即從有限總體中只抽取一個(gè)個(gè)案,且恰好抽到符合要求個(gè)案的概率,那超幾何分布可以還原成二項(xiàng)分布
- 如果數(shù)據(jù)總體的容量 N 無(wú)窮大,或是樣本容量的 10 倍以上,即 N>=10n,也可以將二項(xiàng)分布近似描述超幾何分布
假設(shè)有限數(shù)據(jù)總體包含 N 個(gè)數(shù)值,其中符合要求的個(gè)案數(shù)量為 m 個(gè),如果從該數(shù)據(jù)總體中抽取 n 個(gè)個(gè)案,其中有 k 個(gè)是符合要求個(gè)案的概率計(jì)算公式為:
3)泊松分布
基于過(guò)去某個(gè)隨機(jī)事件在單位時(shí)間內(nèi)的平均發(fā)生次數(shù),預(yù)測(cè)該隨機(jī)事件在未來(lái)同樣單位時(shí)間內(nèi)發(fā)生不同次數(shù)的的概率。
連續(xù)型概率分布
1)指數(shù)分布
根據(jù)隨機(jī)事件發(fā)生一次的平均等待時(shí)間來(lái)推斷某個(gè)時(shí)間段內(nèi),隨機(jī)事件發(fā)生的概率。

2)均勻分布
是古典概率分布的連續(xù)形式,是指隨機(jī)事件的可能結(jié)果是連續(xù)型數(shù)據(jù)變量,但所有的變量對(duì)應(yīng)的概率都相等。
3)正態(tài)分布
正態(tài)分布的數(shù)據(jù)特點(diǎn):
- 集中性:正態(tài)曲線(xiàn)的高峰位于正中央,即均數(shù)所在的位置。
- 對(duì)稱(chēng)性:正態(tài)曲線(xiàn)以均數(shù)為中心,左右對(duì)稱(chēng),曲線(xiàn)兩端永遠(yuǎn)不與橫軸相交。
- 均勻變動(dòng)性:正態(tài)曲線(xiàn)由均數(shù)所在處開(kāi)始,分別向左右兩側(cè)逐漸均勻下降。 68% 的數(shù)值位于平均值一個(gè)標(biāo)準(zhǔn)差的范圍之內(nèi),95% 的數(shù)值在平均值兩個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)。
- 正態(tài)分布有兩個(gè)參數(shù),即均數(shù)μ和標(biāo)準(zhǔn)差σ,可記作N(μ,σ):均數(shù) μ 決定正態(tài)曲線(xiàn)的中心位置;標(biāo)準(zhǔn)差 σ 決定正態(tài)曲線(xiàn)的陡峭或扁平程度。σ 越小,曲線(xiàn)越陡峭;σ越大,曲線(xiàn)越扁平。
偏態(tài)分布的數(shù)據(jù)有什么特點(diǎn)?
-
正偏態(tài)(右偏)分布:曲線(xiàn)右側(cè)偏長(zhǎng),左側(cè)偏短,M>Me>Mo,即平均數(shù)大于中數(shù)中數(shù)又大于眾數(shù),則數(shù)據(jù)的分布是屬于正偏態(tài)分布。
image -
負(fù)偏態(tài)(左偏)分布:曲線(xiàn)左側(cè)偏長(zhǎng),右側(cè)偏短,M<Me<Mo,即平均數(shù)小于中數(shù),中數(shù)又小于眾數(shù),則數(shù)據(jù)的分布是屬于負(fù)偏態(tài)分布。
image

