數(shù)據(jù)的描述性統(tǒng)計

在實際工作中,對于剛接手的數(shù)據(jù)集,在正式處理需求前,除了需要梳理清楚數(shù)據(jù)上報及轉(zhuǎn)發(fā)環(huán)節(jié),還需要對數(shù)據(jù)集進行質(zhì)量評估和了解數(shù)據(jù)集的描述性統(tǒng)計特征。在很多公司里,數(shù)據(jù)分析師「觸手可及」的便是數(shù)據(jù)開發(fā)工程師處理過后的數(shù)據(jù),在上述環(huán)節(jié)中,分析師尤其需要重點關(guān)注數(shù)據(jù)集的描述性統(tǒng)計特征,了解不同類型的數(shù)據(jù)的集中、離散和分布程度,以便在業(yè)務(wù)提數(shù)時,補充合理的篩選條件,避免計算出來的指標有誤導性。


數(shù)據(jù)描述的三個維度

所有的結(jié)構(gòu)化數(shù)據(jù)都可以從三個維度進行描述,這三個維度就是:

  • 數(shù)據(jù)的集中趨勢描述:算數(shù)平均值,加權(quán)平均值,調(diào)和平均值,幾何平均值,眾數(shù),中位數(shù)
  • 數(shù)據(jù)的離散程度描述:全距,平均差,總體方差和標準差,樣本方差和標準差,離散洗漱,四分位極差和四分位差
  • 數(shù)據(jù)的分布形態(tài)描述:峰度與偏度,概率及概率分布,二項概率分布,多項概率分布,泊松概率分布,指數(shù)概率分布,正態(tài)概率分布

數(shù)據(jù)的集中趨勢描述

尋找反映數(shù)據(jù)集某一特征的代表值或中心值,表明所研究的對象在一定的條件下的共同性質(zhì)和一般水平。

1)平均值
  • 算術(shù)平均值
    概念:將數(shù)據(jù)集合的所有數(shù)據(jù)值相加的和除以數(shù)據(jù)值的個數(shù)就能得到簡單算術(shù)平均值。
    應(yīng)用:當數(shù)據(jù)集合中有極大值或極小值存在時,會對算術(shù)平均值產(chǎn)生很大的影響,計算結(jié)果會掩蓋數(shù)據(jù)集合的真實特征。
    \bar x = \frac{x_1+x_2+x_3+...+x_n}{n}

  • 加權(quán)算術(shù)平均值
    概念:將各數(shù)值乘以相應(yīng)的權(quán)重值,然后加總求和得到總體值,再除以總的數(shù)據(jù)值個數(shù)。
    應(yīng)用:計算前需要設(shè)定好各數(shù)據(jù)值的權(quán)重,可是由「專家」根據(jù)具體業(yè)務(wù)設(shè)置,也可以根據(jù)各數(shù)據(jù)值的分布占比進行設(shè)定。

m = \frac{f_1\bar x_1+f_2\bar x_2 + ... + f_n\bar x_n}{f_1+f_2+...+f_n}

  • 幾何平均值
    概念:有些數(shù)據(jù)之間的關(guān)系不是相加減關(guān)系,而是乘除關(guān)系,此時該用幾何平均值來表示由這樣的數(shù)值組成數(shù)據(jù)集合的集中趨勢。
    應(yīng)用案例:銀行的平均存款利率、汽車工廠每條生產(chǎn)線的平均產(chǎn)品合格率,由于生產(chǎn)工藝是連續(xù)型生產(chǎn),只有上一道工序的合格品才能進入下一道工序中,所以每道工序的合格率之間是乘積關(guān)系。假設(shè)每道工序的產(chǎn)品合格率分別是 85%、97%、94% 和 92%,求這條生產(chǎn)線的平均產(chǎn)品合格率。

\bar x_j = \sqrt[n]{x_1x_2...x_n}

2)中位數(shù)

概念:對于數(shù)據(jù)集合,將所有的數(shù)值按照它們的大小,從高到低進行排序,如果數(shù)據(jù)集合包含的數(shù)值個數(shù)是奇數(shù),那么排在最中間的數(shù)值就是該數(shù)據(jù)集合的中位數(shù),如果數(shù)據(jù)集合的數(shù)值為偶數(shù),那么取最中間兩個數(shù)值的算術(shù)平均值作為中位數(shù)。
應(yīng)用:中位數(shù)能夠避免數(shù)據(jù)的平均水平受到異常值的影響,因此在做數(shù)據(jù)分析時,不僅要計算算數(shù)平均數(shù),也計算中位數(shù),若兩個數(shù)字差距很大,就用中位數(shù)作為平均數(shù)。

3)眾數(shù)

概念:數(shù)據(jù)集合中出現(xiàn)次數(shù)最多的數(shù)值。
應(yīng)用:眾數(shù)真正的價值在于類別型數(shù)據(jù),用于統(tǒng)計各類別的數(shù)量。

數(shù)據(jù)的離散程度描述

1)極差

概念:數(shù)據(jù)集合中最大值與最小值的差值,表示整個數(shù)據(jù)集合能夠覆蓋的數(shù)值距離。
應(yīng)用:極差雖能表示數(shù)據(jù)集合的波動大小,但沒有提供兩個極值以外的數(shù)值的信息,且對極值非常敏感,不太可靠,需要結(jié)合其他離散程度描述指標來描述數(shù)據(jù)集合的離散程度。

R = R_{max} - R_{min}

2)平均偏差

概念:數(shù)據(jù)集合的所有數(shù)值與平均值的偏差(取絕對值)之和,除以數(shù)值個數(shù)。

R_a = \frac{\sum_{i=1}^{n}|x_i-\bar x|}{n}

3)方差和標準差

概念:描述數(shù)值與均值的偏離程度的指標。方差是各個數(shù)據(jù)分別與其平均數(shù)之差的平方的和的平均數(shù)。而標準差則是方差的算術(shù)平方根。
應(yīng)用:方差/標準差值越大,代表大部分數(shù)值和其平均值之間的差異較大,數(shù)據(jù)離散程度也就越大。在處理風險評估模型時,一個數(shù)據(jù)的波動性,說明它涵蓋的信息量越大,信息量越大,不可知的因素越多,因此風險會更大。

\sigma^2 = \frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}

\sigma = \sqrt[2]{\frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N}}

4)樣本方差和標準差

概念:從數(shù)據(jù)總體中隨機抽取一定數(shù)量的樣本數(shù)值,然后用樣本數(shù)值的方差和標準差來估計總體的方差和標準差。

s^2 = \frac{\sum_{i=1}^{n}(x_i-\bar x)^2}{n-1}

總體方差公式的分母就是數(shù)據(jù)集合的總數(shù)量 N,而樣本方差公式的分母卻是 n-1,即抽取樣本量 n 減去 1。主要是因為用樣本方差估計總體方差總有一定的偏差所在。

5)變異系數(shù)

概念:數(shù)據(jù)集合的標準差與算術(shù)平均值的比值。
應(yīng)用:無單位指標,不僅可以說明同類事物的相對離散程度,也可以說明不同類型事物的相對離散程度。

6)四分位極差

概念:對于數(shù)據(jù)集合,將所有的數(shù)值按照它們的大小,從高到低進行排序,排在四分之一位置的數(shù)值即為第一四分位數(shù) Q1,以此類推,分別有有第二、三、四四分位數(shù),Q2,Q3,Q4。四分位極差等于第一四分位數(shù)與第三四分位數(shù)的差值(Q3-Q1),這個差值區(qū)間包含了整個數(shù)據(jù)集合 50% 的數(shù)據(jù)值。

數(shù)據(jù)的分布形態(tài)描述

概率
概念:度量隨機事件中某一個結(jié)果發(fā)生的可能性大小的數(shù)值。

1)古典概率法:事件結(jié)果數(shù)目已知,且每種結(jié)果對應(yīng)的發(fā)生概率相等。
2)統(tǒng)計概率法:需要統(tǒng)計過往事件發(fā)生的結(jié)果頻數(shù)來確定。
3)主觀概率法:分析者對預(yù)測事件發(fā)生的概率做出主觀估計。

概率分布
概率分布是指事件的不同結(jié)果對應(yīng)的發(fā)生概率所構(gòu)成的分布,可以利用二維坐標進行形象的解釋。

  • 離散型概率分布的概率函數(shù)被稱為概率質(zhì)量函數(shù),對應(yīng)的 Y 軸表示某事件結(jié)果出現(xiàn)的概率。
  • 連續(xù)型概率分布對應(yīng)的 Y 軸表示某結(jié)果的概率密度,X 軸任意一點,它對應(yīng)的概率為 0,需要從 X 軸取某一段區(qū)間的積分面積得到事件的發(fā)生概率。

離散型概率分布

1)二項/多項分布

二項分布的試驗結(jié)果只有兩個(成功和失敗,0 和 1),而多項分布的試驗結(jié)果則多于兩個,多項分布試驗的特點如下:

  • 每次試驗有兩種或多種可能的結(jié)果,但是每種結(jié)果只會出現(xiàn)一個;
  • 每次結(jié)果都有各自發(fā)生的概率,所有結(jié)果的發(fā)生概率之和為 1;
  • 每次試驗相互獨立,每次試驗結(jié)果都不受其他各次試驗結(jié)果的影響(放回抽樣)。

假設(shè)某個多項分布試驗有 k 個結(jié)果,每種結(jié)果發(fā)生的概率分別為 p1,p2…,pk(概率之和為 1)現(xiàn)在進行 n 次多項分布試驗,假設(shè)觀測結(jié)果為 a1 的次數(shù)為 x1 次,結(jié)果為 a2 的次數(shù)為 x2 次,…,結(jié)果為 ak 的次數(shù)為 xk(n=x1+x2+…+xk),多么多項分布的聯(lián)合概率函數(shù)為:

P(X_1 = x_1, X_2=x_2, …, X_k=x_k)=\frac{n!}{x_1!x_2!…x_k!}p_1^{x_1}p_2^{x_2}…p_k^{x_k}

而二項分布中,只有 p_11-p_1 (記為 q)兩種概率,因此二項分布的概率函數(shù)為:
P(X=x_1) = C^{x_1}_np^{x_1}q^{n-{x_1}}=\frac{n!}{x_1!(n-x_1)!}p^{x_1}q^{n-x_1}

上述公式里,P(X=x) 表示特定事件的概率,在實際工作中,常結(jié)合數(shù)學期望一起使用。

數(shù)學期望

數(shù)學期望是對隨機變量中心位置的一種度量,是試驗中每次可能結(jié)果的乘以其結(jié)果的總和。

E(x) = \sum_{i=1}^{k} n_ip_i

假設(shè)一等獎成本 1000 元,二等獎成本 500 元,三等獎成本 100 元,歡迎下次再來當然沒錢,而用戶參加一次抽獎需要 10 元。我們將概率問題轉(zhuǎn)換成運營方的收益和成本計算期望

下面從公司角度分析活動的盈虧成本:

一等獎 二等獎 三等獎 歡迎下次再來
A 方案盈虧結(jié)果 10-1000 10-500 10-100 10
P(X=x) 5% 10% 20% 65%
B 方案盈虧結(jié)果 10-1000 10-500 10-100 10
P(X=x) 10% 10% 10% 70%

A 方案的數(shù)學期望:

E(x)=(-990*5\%)+(-490*10\%)+(-90*20\%)+(10*65\%) = -110

B 方案的數(shù)學期望:

E(x)=(-990*10\%)+(-450*10\%)+(-90*10\%)+(10*70\%)=-150

A 方案能否期望沒抽獎運營方虧損 110 元,B 方案則是虧損 150 元。

而從用戶的角度分析活動的收益成本:

一等獎 二等獎 三等獎 歡迎下次再來
A 方案收益結(jié)果 1000-10 500-10 100-10 -10
P(X=x) 5% 10% 20% 65%
B 方案收益結(jié)果 1000-10 500-10 100-10 -10
P(X=x) 10% 10% 10% 70%

A 方案的數(shù)學期望:

E(x)=(990*5\%)+(490*10\%)+(90*20\%)+(-10*65\%)=110
B 方案的數(shù)學期望:

E(x)=(990*10\%)+(490*10\%)+(90*10\%)+(-10*70\%)=150

2)超幾何分布

在二項/多項分布試驗中,每次試驗結(jié)果的發(fā)生概率是不變的,而超幾何分布試驗結(jié)果的概率會隨著每一次試驗的發(fā)生而改變(無放回抽樣)。

  • 若樣本容量 n = 1,即從有限總體中只抽取一個個案,且恰好抽到符合要求個案的概率,那超幾何分布可以還原成二項分布
  • 如果數(shù)據(jù)總體的容量 N 無窮大,或是樣本容量的 10 倍以上,即 N>=10n,也可以將二項分布近似描述超幾何分布

假設(shè)有限數(shù)據(jù)總體包含 N 個數(shù)值,其中符合要求的個案數(shù)量為 m 個,如果從該數(shù)據(jù)總體中抽取 n 個個案,其中有 k 個是符合要求個案的概率計算公式為:

f(k;n,m,N)=\frac{C_m^{k}C_{N-m}^{n-k}}{C_N^{n}}

3)泊松分布

基于過去某個隨機事件在單位時間內(nèi)的平均發(fā)生次數(shù),預(yù)測該隨機事件在未來同樣單位時間內(nèi)發(fā)生不同次數(shù)的的概率。

P(X=k)=C_n^k(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{(n-k)}=\frac{e^{-\lambda}\lambda^{k}}{k!}

連續(xù)型概率分布

1)指數(shù)分布

根據(jù)隨機事件發(fā)生一次的平均等待時間來推斷某個時間段內(nèi),隨機事件發(fā)生的概率。

$$
2)均勻分布

是古典概率分布的連續(xù)形式,是指隨機事件的可能結(jié)果是連續(xù)型數(shù)據(jù)變量,但所有的變量對應(yīng)的概率都相等。

3)正態(tài)分布

正態(tài)分布的數(shù)據(jù)特點:

  • 集中性:正態(tài)曲線的高峰位于正中央,即均數(shù)所在的位置。
  • 對稱性:正態(tài)曲線以均數(shù)為中心,左右對稱,曲線兩端永遠不與橫軸相交。
  • 均勻變動性:正態(tài)曲線由均數(shù)所在處開始,分別向左右兩側(cè)逐漸均勻下降。 68% 的數(shù)值位于平均值一個標準差的范圍之內(nèi),95% 的數(shù)值在平均值兩個標準差的范圍內(nèi)。
  • 正態(tài)分布有兩個參數(shù),即均數(shù)μ和標準差σ,可記作N(μ,σ):均數(shù) μ 決定正態(tài)曲線的中心位置;標準差 σ 決定正態(tài)曲線的陡峭或扁平程度。σ 越小,曲線越陡峭;σ越大,曲線越扁平。

偏態(tài)分布的數(shù)據(jù)有什么特點?

  • 正偏態(tài)(右偏)分布:曲線右側(cè)偏長,左側(cè)偏短,M>Me>Mo,即平均數(shù)大于中數(shù)中數(shù)又大于眾數(shù),則數(shù)據(jù)的分布是屬于正偏態(tài)分布。

    image
  • 負偏態(tài)(左偏)分布:曲線左側(cè)偏長,右側(cè)偏短,M<Me<Mo,即平均數(shù)小于中數(shù),中數(shù)又小于眾數(shù),則數(shù)據(jù)的分布是屬于負偏態(tài)分布。

    image
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容