2.4.2 常用離散分布 - 泊松分布

轉(zhuǎn)自:
http://www.ruanyifeng.com/blog/2013/01/poisson_distribution.html
http://www.itdecent.cn/p/91cf85a48823

去年12月,美國康涅狄格州發(fā)生校園槍擊案,造成28人死亡。
資料顯示,1982年至2012年,美國共發(fā)生62起(大規(guī)模)槍擊案。其中,2012年發(fā)生了7起,是次數(shù)最多的一年。

image

去年有這么多槍擊案,這是巧合,還是美國治安惡化了?
前幾天,我看到一篇很有趣的文章,使用"泊松分布"(Poisson distribution),判斷同一年發(fā)生7起槍擊案是否巧合。
讓我們先通過一個例子,了解什么是"泊松分布"。



已知某家小雜貨店,平均每周售出2個水果罐頭。請問該店水果罐頭的最佳庫存量是多少?

假定不存在季節(jié)因素,可以近似認(rèn)為,這個問題滿足以下三個條件:

(1)顧客購買水果罐頭是小概率事件。
(2)購買水果罐頭的顧客是獨(dú)立的,不會互相影響。
(3)顧客購買水果罐頭的概率是穩(wěn)定的。

在統(tǒng)計學(xué)上,只要某類事件滿足上面三個條件,它就服從"泊松分布"。
泊松分布的公式如下:
P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}

各個參數(shù)的含義:

P:每周銷售k個罐頭的概率。
X:水果罐頭的銷售變量。
k:X的取值(0,1,2,3...)。
λ:每周水果罐頭的平均銷售量,是一個常數(shù),本題為2。

根據(jù)公式,計算得到每周銷量的分布:

每周罐頭銷量(k) 概率(P) 累計概率
X=0 0.135 0.135
X=1 0.271 0.406
X=2 0.271 0.677
X=3 0.180 0.857
X=4 0.090 0.947
X=5 0.036 0.983
X>=6 0.017 1.000

從上表可見,如果存貨4個罐頭,95%的概率不會缺貨(平均每19周發(fā)生一次);
如果存貨5個罐頭,98%的概率不會缺貨(平均59周發(fā)生一次)。



現(xiàn)在,我們再回過頭,來看美國槍擊案。
假定它們滿足"泊松分布"的三個條件:

(1)槍擊案是小概率事件。
(2)槍擊案是獨(dú)立的,不會互相影響。
(3)槍擊案的發(fā)生概率是穩(wěn)定的。

顯然,第三個條件是關(guān)鍵。如果成立,就說明美國的治安沒有惡化;
如果不成立,就說明槍擊案的發(fā)生概率不穩(wěn)定,正在提高,美國治安惡化。
根據(jù)資料,1982--2012年槍擊案的分布情況如下:

每年槍擊案數(shù)量 年數(shù)
0 4
1 10
2 7
3 5
4 4
5 0
6 0
7 1

計算得到,平均每年發(fā)生2起槍擊案,所以 λ = 2 。


image

上圖中,藍(lán)色的條形柱是實(shí)際的觀察值,紅色的虛線是理論的預(yù)期值??梢钥吹?,觀察值與期望值還是相當(dāng)接近的。

每年槍擊案數(shù)量 觀察值 泊松分布期望值
0 4 4.2
1 10 8.39
2 7 8.39
3 5 5.59
4 4 2.8
5 0 1.12
6 0 0.37
7 1 0.11

我們用"卡方檢驗(yàn)"(chi-square test),檢驗(yàn)觀察值與期望值之間是否存在顯著差異。

卡方統(tǒng)計量 = Σ [ ( 觀察值 - 期望值 ) ^ 2 / 期望值 ]

計算得到,卡方統(tǒng)計量等于9.82。查表后得到,置信水平0.90、自由度7的卡方分布臨界值為12.017。
因此,卡方統(tǒng)計量小于臨界值,這表明槍擊案的觀察值與期望值之間沒有顯著差異。
所以,可以接受"發(fā)生槍擊案的概率是穩(wěn)定的"假設(shè),也就是說,從統(tǒng)計學(xué)上無法得到美國治安正在惡化的結(jié)論。

但是,也必須看到,卡方統(tǒng)計量9.82離臨界值很接近,p-value只有0.18。
也就是說,對于"美國治安沒有惡化"的結(jié)論,我們只有82%的把握,還有18%的可能是我們錯了,美國治安實(shí)際上正在惡化。
因此,這就需要看今后兩年中,是否還有大量槍擊案發(fā)生。如果確實(shí)發(fā)生了,泊松分布就不成立了。



定義與推導(dǎo)

1. 定義和現(xiàn)實(shí)應(yīng)用

泊松概率分布描述的是在某段時間或某個空間內(nèi)發(fā)生隨機(jī)事件次數(shù)的概率,簡而言之就是:
根據(jù)過去某個隨機(jī)事件在某段時間或某個空間內(nèi)發(fā)生的平均次數(shù),
預(yù)測該隨機(jī)事件在未來同樣長的時間或同樣大的空間內(nèi)發(fā)生k次的概率
。
其概率質(zhì)量函數(shù)為:
P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}
其中:

λ是過去某段時間或某個空間內(nèi)隨機(jī)事件發(fā)生的平均次數(shù)
e=2.71828...,是自然常數(shù)
k的取值為 0, 1, 2, 3, 4, ...
k! = k x (k-1) x (k-2) x ... x 2 x 1,是k的階乘

由于泊松分布適用于描述某段時間(或某個空間)內(nèi)隨機(jī)事件發(fā)生的次數(shù),因此它常用于預(yù)測某些事件的發(fā)生。
例如:

  • 某家醫(yī)院在一定時間內(nèi)到達(dá)的人數(shù);
  • 超市收銀臺在某段時間內(nèi)的結(jié)賬人數(shù);
  • 某段時間內(nèi)發(fā)生自然災(zāi)害的次數(shù);
  • 某段時間內(nèi)DNA序列的變異數(shù);
  • 放射性原子核在一段時間內(nèi)的衰變數(shù)等等。

2. 泊松分布的推導(dǎo)

泊松分布的概率質(zhì)量函數(shù)可以由二項(xiàng)分布的概率質(zhì)量函數(shù)推導(dǎo)而來,下面是推導(dǎo)過程。
二項(xiàng)分布的分布列為:
P(X=k)=C_{n}^{k}p^k(1-p)^{n-k}, k=0,1,2,...,n
其中

n代表伯努利試驗(yàn)的次數(shù)
p代表試驗(yàn)成功的概率,則1-p為試驗(yàn)失敗的概率
k代表n次試驗(yàn)中成功的次數(shù),則失敗次數(shù)為n-k

假定在過去的歷史中,某個隨機(jī)事件在固定長度時間段發(fā)生的平均次數(shù)為λ,那么就可以將固定長度的時間分成n等份;
在每等份的時間內(nèi),隨機(jī)事件發(fā)生的概率可以表示為λ/n。若n趨于無窮大,也就是這段時間被分成無數(shù)的小段,那么λ/n的值將趨近于0,也就是在每個等份的時間內(nèi),該隨機(jī)事件發(fā)生兩次或兩次以上是不可能的。
根據(jù)以上假設(shè)條件,在固定長度時間內(nèi),隨機(jī)事件發(fā)生k次的概率服從二項(xiàng)概率分布,可以表示為:
\quad \lim_{n \to \infty}P(X=k)
=\lim_{n \to \infty}\binom{n}{k}p^k(1-p)^{n-k}
=\lim_{n \to \infty}\frac{n!}{(n-k)!k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}
=\lim_{n \to \infty} \underbrace{\begin{bmatrix}\frac{n!}{(n-k)!n^k}\end{bmatrix}}_{F} (\frac{\lambda^{k}}{k!}) \underbrace{(1-\frac{\lambda}{n})^n}_{\to exp(-\lambda)} \underbrace{(1-\frac{\lambda}{n})^{- k}}_{\to 1}
=\lim_{n \to \infty} \underbrace{\begin{bmatrix}(1-\frac{1}{n})(1-\frac{2}{n})…(1-\frac{k-1}{n})\end{bmatrix}}_{\to1} (\frac{\lambda^{k}}{{k}!}) \underbrace{(1-\frac{\lambda}{n})^n}_{\to exp(-\lambda)} \underbrace{(1-\frac{\lambda}{n})^{-k}}_{\to 1}
=(\frac{\lambda^{k}}{{k}!}) exp(-\lambda)

由上可知,在二項(xiàng)分布的伯努利試驗(yàn)中,如果試驗(yàn)次數(shù)n很大,成功概率p很小,
且乘積λ=np比較適中,則事件出現(xiàn)的次數(shù)的概率可以用泊松分布來逼近。
事實(shí)上,二項(xiàng)分布可以看作泊松分布在離散時間上的對應(yīng)物。

3. 泊松分布的性質(zhì)

從泊松分布的概率質(zhì)量函數(shù)可以看出,λ是泊松分布所依賴的唯一參數(shù),隨著歷史平均次數(shù)λ的不同,泊松分布的概率分布形態(tài)也將隨之改變。如下圖,隨著λ的增大,泊松分布的形態(tài)也由右偏分布 (尾巴在右邊) 逐漸變?yōu)閷ΨQ分布。


image
在實(shí)際情況中,當(dāng)λ很大時,可以用正態(tài)分布近似地處理泊松分布問題

泊松分布的期望值與方差相等,同為參數(shù)λ,即:E(X)=Var(X)=λ (具體推導(dǎo)過程可參考泊松分布的中文維基百科詞條)。
對于這個性質(zhì),也可通過二項(xiàng)分布的期望值和方差進(jìn)行推導(dǎo),我們知道二項(xiàng)分布的期望值和方差分別為npnpq,則泊松分布的期望值和方差為:
E(X)=np=n\frac{\lambda}{n}=\lambda
Var(X)=npq=np(1-p)=n\frac{\lambda}{n}(1-\frac{\lambda}{n})=\lambda

上式推導(dǎo)利用了λ/n的值趨近于0的這個性質(zhì)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容