在實際工作中,對于剛接手的數(shù)據(jù)集,在正式處理需求前,除了需要梳理清楚數(shù)據(jù)上報及轉(zhuǎn)發(fā)環(huán)節(jié),還需要對數(shù)據(jù)集進行質(zhì)量評估和了解數(shù)據(jù)集的描述性統(tǒng)計特征。在很多公司里,數(shù)據(jù)分析師「觸手可及」的便是數(shù)據(jù)開發(fā)工程師處理過后的數(shù)據(jù),在上述環(huán)節(jié)中,分析師尤其需要重點關(guān)注數(shù)據(jù)集的描述性統(tǒng)計特征,了解不同類型的數(shù)據(jù)的集中、離散和分布程度,以便在業(yè)務(wù)提數(shù)時,補充合理的篩選條件,避免計算出來的指標有誤導性。
數(shù)據(jù)描述的三個維度
所有的結(jié)構(gòu)化數(shù)據(jù)都可以從三個維度進行描述,這三個維度就是:
- 數(shù)據(jù)的集中趨勢描述:算數(shù)平均值,加權(quán)平均值,調(diào)和平均值,幾何平均值,眾數(shù),中位數(shù)
- 數(shù)據(jù)的離散程度描述:全距,平均差,總體方差和標準差,樣本方差和標準差,離散洗漱,四分位極差和四分位差
- 數(shù)據(jù)的分布形態(tài)描述:峰度與偏度,概率及概率分布,二項概率分布,多項概率分布,泊松概率分布,指數(shù)概率分布,正態(tài)概率分布
數(shù)據(jù)的集中趨勢描述
尋找反映數(shù)據(jù)集某一特征的代表值或中心值,表明所研究的對象在一定的條件下的共同性質(zhì)和一般水平。
1)平均值
算術(shù)平均值
概念:將數(shù)據(jù)集合的所有數(shù)據(jù)值相加的和除以數(shù)據(jù)值的個數(shù)就能得到簡單算術(shù)平均值。
應(yīng)用:當數(shù)據(jù)集合中有極大值或極小值存在時,會對算術(shù)平均值產(chǎn)生很大的影響,計算結(jié)果會掩蓋數(shù)據(jù)集合的真實特征。
加權(quán)算術(shù)平均值
概念:將各數(shù)值乘以相應(yīng)的權(quán)重值,然后加總求和得到總體值,再除以總的數(shù)據(jù)值個數(shù)。
應(yīng)用:計算前需要設(shè)定好各數(shù)據(jù)值的權(quán)重,可是由「專家」根據(jù)具體業(yè)務(wù)設(shè)置,也可以根據(jù)各數(shù)據(jù)值的分布占比進行設(shè)定。
- 幾何平均值
概念:有些數(shù)據(jù)之間的關(guān)系不是相加減關(guān)系,而是乘除關(guān)系,此時該用幾何平均值來表示由這樣的數(shù)值組成數(shù)據(jù)集合的集中趨勢。
應(yīng)用案例:銀行的平均存款利率、汽車工廠每條生產(chǎn)線的平均產(chǎn)品合格率,由于生產(chǎn)工藝是連續(xù)型生產(chǎn),只有上一道工序的合格品才能進入下一道工序中,所以每道工序的合格率之間是乘積關(guān)系。假設(shè)每道工序的產(chǎn)品合格率分別是 85%、97%、94% 和 92%,求這條生產(chǎn)線的平均產(chǎn)品合格率。
2)中位數(shù)
概念:對于數(shù)據(jù)集合,將所有的數(shù)值按照它們的大小,從高到低進行排序,如果數(shù)據(jù)集合包含的數(shù)值個數(shù)是奇數(shù),那么排在最中間的數(shù)值就是該數(shù)據(jù)集合的中位數(shù),如果數(shù)據(jù)集合的數(shù)值為偶數(shù),那么取最中間兩個數(shù)值的算術(shù)平均值作為中位數(shù)。
應(yīng)用:中位數(shù)能夠避免數(shù)據(jù)的平均水平受到異常值的影響,因此在做數(shù)據(jù)分析時,不僅要計算算數(shù)平均數(shù),也計算中位數(shù),若兩個數(shù)字差距很大,就用中位數(shù)作為平均數(shù)。
3)眾數(shù)
概念:數(shù)據(jù)集合中出現(xiàn)次數(shù)最多的數(shù)值。
應(yīng)用:眾數(shù)真正的價值在于類別型數(shù)據(jù),用于統(tǒng)計各類別的數(shù)量。
數(shù)據(jù)的離散程度描述
1)極差
概念:數(shù)據(jù)集合中最大值與最小值的差值,表示整個數(shù)據(jù)集合能夠覆蓋的數(shù)值距離。
應(yīng)用:極差雖能表示數(shù)據(jù)集合的波動大小,但沒有提供兩個極值以外的數(shù)值的信息,且對極值非常敏感,不太可靠,需要結(jié)合其他離散程度描述指標來描述數(shù)據(jù)集合的離散程度。
2)平均偏差
概念:數(shù)據(jù)集合的所有數(shù)值與平均值的偏差(取絕對值)之和,除以數(shù)值個數(shù)。
3)方差和標準差
概念:描述數(shù)值與均值的偏離程度的指標。方差是各個數(shù)據(jù)分別與其平均數(shù)之差的平方的和的平均數(shù)。而標準差則是方差的算術(shù)平方根。
應(yīng)用:方差/標準差值越大,代表大部分數(shù)值和其平均值之間的差異較大,數(shù)據(jù)離散程度也就越大。在處理風險評估模型時,一個數(shù)據(jù)的波動性,說明它涵蓋的信息量越大,信息量越大,不可知的因素越多,因此風險會更大。
4)樣本方差和標準差
概念:從數(shù)據(jù)總體中隨機抽取一定數(shù)量的樣本數(shù)值,然后用樣本數(shù)值的方差和標準差來估計總體的方差和標準差。
總體方差公式的分母就是數(shù)據(jù)集合的總數(shù)量 N,而樣本方差公式的分母卻是 n-1,即抽取樣本量 n 減去 1。主要是因為用樣本方差估計總體方差總有一定的偏差所在。
5)變異系數(shù)
概念:數(shù)據(jù)集合的標準差與算術(shù)平均值的比值。
應(yīng)用:無單位指標,不僅可以說明同類事物的相對離散程度,也可以說明不同類型事物的相對離散程度。
6)四分位極差
概念:對于數(shù)據(jù)集合,將所有的數(shù)值按照它們的大小,從高到低進行排序,排在四分之一位置的數(shù)值即為第一四分位數(shù) Q1,以此類推,分別有有第二、三、四四分位數(shù),Q2,Q3,Q4。四分位極差等于第一四分位數(shù)與第三四分位數(shù)的差值(Q3-Q1),這個差值區(qū)間包含了整個數(shù)據(jù)集合 50% 的數(shù)據(jù)值。
數(shù)據(jù)的分布形態(tài)描述
概率
概念:度量隨機事件中某一個結(jié)果發(fā)生的可能性大小的數(shù)值。
1)古典概率法:事件結(jié)果數(shù)目已知,且每種結(jié)果對應(yīng)的發(fā)生概率相等。
2)統(tǒng)計概率法:需要統(tǒng)計過往事件發(fā)生的結(jié)果頻數(shù)來確定。
3)主觀概率法:分析者對預(yù)測事件發(fā)生的概率做出主觀估計。
概率分布
概率分布是指事件的不同結(jié)果對應(yīng)的發(fā)生概率所構(gòu)成的分布,可以利用二維坐標進行形象的解釋。

- 離散型概率分布的概率函數(shù)被稱為概率質(zhì)量函數(shù),對應(yīng)的 Y 軸表示某事件結(jié)果出現(xiàn)的概率。
- 連續(xù)型概率分布對應(yīng)的 Y 軸表示某結(jié)果的概率密度,X 軸任意一點,它對應(yīng)的概率為 0,需要從 X 軸取某一段區(qū)間的積分面積得到事件的發(fā)生概率。
離散型概率分布
1)二項/多項分布
二項分布的試驗結(jié)果只有兩個(成功和失敗,0 和 1),而多項分布的試驗結(jié)果則多于兩個,多項分布試驗的特點如下:
- 每次試驗有兩種或多種可能的結(jié)果,但是每種結(jié)果只會出現(xiàn)一個;
- 每次結(jié)果都有各自發(fā)生的概率,所有結(jié)果的發(fā)生概率之和為 1;
- 每次試驗相互獨立,每次試驗結(jié)果都不受其他各次試驗結(jié)果的影響(放回抽樣)。
假設(shè)某個多項分布試驗有 k 個結(jié)果,每種結(jié)果發(fā)生的概率分別為 p1,p2…,pk(概率之和為 1)現(xiàn)在進行 n 次多項分布試驗,假設(shè)觀測結(jié)果為 a1 的次數(shù)為 x1 次,結(jié)果為 a2 的次數(shù)為 x2 次,…,結(jié)果為 ak 的次數(shù)為 xk(n=x1+x2+…+xk),多么多項分布的聯(lián)合概率函數(shù)為:
而二項分布中,只有 和
(記為 q)兩種概率,因此二項分布的概率函數(shù)為:
上述公式里,P(X=x) 表示特定事件的概率,在實際工作中,常結(jié)合數(shù)學期望一起使用。
數(shù)學期望
數(shù)學期望是對隨機變量中心位置的一種度量,是試驗中每次可能結(jié)果的乘以其結(jié)果的總和。
假設(shè)一等獎成本 1000 元,二等獎成本 500 元,三等獎成本 100 元,歡迎下次再來當然沒錢,而用戶參加一次抽獎需要 10 元。我們將概率問題轉(zhuǎn)換成運營方的收益和成本計算期望
下面從公司角度分析活動的盈虧成本:
| 一等獎 | 二等獎 | 三等獎 | 歡迎下次再來 | |
|---|---|---|---|---|
| A 方案盈虧結(jié)果 | 10-1000 | 10-500 | 10-100 | 10 |
| P(X=x) | 5% | 10% | 20% | 65% |
| B 方案盈虧結(jié)果 | 10-1000 | 10-500 | 10-100 | 10 |
| P(X=x) | 10% | 10% | 10% | 70% |
A 方案的數(shù)學期望:
B 方案的數(shù)學期望:
A 方案能否期望沒抽獎運營方虧損 110 元,B 方案則是虧損 150 元。
而從用戶的角度分析活動的收益成本:
| 一等獎 | 二等獎 | 三等獎 | 歡迎下次再來 | |
|---|---|---|---|---|
| A 方案收益結(jié)果 | 1000-10 | 500-10 | 100-10 | -10 |
| P(X=x) | 5% | 10% | 20% | 65% |
| B 方案收益結(jié)果 | 1000-10 | 500-10 | 100-10 | -10 |
| P(X=x) | 10% | 10% | 10% | 70% |
A 方案的數(shù)學期望:
B 方案的數(shù)學期望:
2)超幾何分布
在二項/多項分布試驗中,每次試驗結(jié)果的發(fā)生概率是不變的,而超幾何分布試驗結(jié)果的概率會隨著每一次試驗的發(fā)生而改變(無放回抽樣)。
- 若樣本容量 n = 1,即從有限總體中只抽取一個個案,且恰好抽到符合要求個案的概率,那超幾何分布可以還原成二項分布
- 如果數(shù)據(jù)總體的容量 N 無窮大,或是樣本容量的 10 倍以上,即 N>=10n,也可以將二項分布近似描述超幾何分布
假設(shè)有限數(shù)據(jù)總體包含 N 個數(shù)值,其中符合要求的個案數(shù)量為 m 個,如果從該數(shù)據(jù)總體中抽取 n 個個案,其中有 k 個是符合要求個案的概率計算公式為:
3)泊松分布
基于過去某個隨機事件在單位時間內(nèi)的平均發(fā)生次數(shù),預(yù)測該隨機事件在未來同樣單位時間內(nèi)發(fā)生不同次數(shù)的的概率。
連續(xù)型概率分布
1)指數(shù)分布
根據(jù)隨機事件發(fā)生一次的平均等待時間來推斷某個時間段內(nèi),隨機事件發(fā)生的概率。

2)均勻分布
是古典概率分布的連續(xù)形式,是指隨機事件的可能結(jié)果是連續(xù)型數(shù)據(jù)變量,但所有的變量對應(yīng)的概率都相等。
3)正態(tài)分布
正態(tài)分布的數(shù)據(jù)特點:
- 集中性:正態(tài)曲線的高峰位于正中央,即均數(shù)所在的位置。
- 對稱性:正態(tài)曲線以均數(shù)為中心,左右對稱,曲線兩端永遠不與橫軸相交。
- 均勻變動性:正態(tài)曲線由均數(shù)所在處開始,分別向左右兩側(cè)逐漸均勻下降。 68% 的數(shù)值位于平均值一個標準差的范圍之內(nèi),95% 的數(shù)值在平均值兩個標準差的范圍內(nèi)。
- 正態(tài)分布有兩個參數(shù),即均數(shù)μ和標準差σ,可記作N(μ,σ):均數(shù) μ 決定正態(tài)曲線的中心位置;標準差 σ 決定正態(tài)曲線的陡峭或扁平程度。σ 越小,曲線越陡峭;σ越大,曲線越扁平。
偏態(tài)分布的數(shù)據(jù)有什么特點?
-
正偏態(tài)(右偏)分布:曲線右側(cè)偏長,左側(cè)偏短,M>Me>Mo,即平均數(shù)大于中數(shù)中數(shù)又大于眾數(shù),則數(shù)據(jù)的分布是屬于正偏態(tài)分布。
image -
負偏態(tài)(左偏)分布:曲線左側(cè)偏長,右側(cè)偏短,M<Me<Mo,即平均數(shù)小于中數(shù),中數(shù)又小于眾數(shù),則數(shù)據(jù)的分布是屬于負偏態(tài)分布。
image

