轉(zhuǎn)自:
http://www.ruanyifeng.com/blog/2013/01/poisson_distribution.html
http://www.itdecent.cn/p/91cf85a48823
去年12月,美國康涅狄格州發(fā)生校園槍擊案,造成28人死亡。
資料顯示,1982年至2012年,美國共發(fā)生62起(大規(guī)模)槍擊案。其中,2012年發(fā)生了7起,是次數(shù)最多的一年。

去年有這么多槍擊案,這是巧合,還是美國治安惡化了?
前幾天,我看到一篇很有趣的文章,使用"泊松分布"(Poisson distribution),判斷同一年發(fā)生7起槍擊案是否巧合。
讓我們先通過一個例子,了解什么是"泊松分布"。
已知某家小雜貨店,平均每周售出2個水果罐頭。請問該店水果罐頭的最佳庫存量是多少?
假定不存在季節(jié)因素,可以近似認(rèn)為,這個問題滿足以下三個條件:
(1)顧客購買水果罐頭是小概率事件。
(2)購買水果罐頭的顧客是獨(dú)立的,不會互相影響。
(3)顧客購買水果罐頭的概率是穩(wěn)定的。
在統(tǒng)計學(xué)上,只要某類事件滿足上面三個條件,它就服從"泊松分布"。
泊松分布的公式如下:
各個參數(shù)的含義:
P:每周銷售k個罐頭的概率。
X:水果罐頭的銷售變量。
k:X的取值(0,1,2,3...)。
λ:每周水果罐頭的平均銷售量,是一個常數(shù),本題為2。
根據(jù)公式,計算得到每周銷量的分布:
| 每周罐頭銷量(k) | 概率(P) | 累計概率 |
|---|---|---|
| X=0 | 0.135 | 0.135 |
| X=1 | 0.271 | 0.406 |
| X=2 | 0.271 | 0.677 |
| X=3 | 0.180 | 0.857 |
| X=4 | 0.090 | 0.947 |
| X=5 | 0.036 | 0.983 |
| X>=6 | 0.017 | 1.000 |
從上表可見,如果存貨4個罐頭,95%的概率不會缺貨(平均每19周發(fā)生一次);
如果存貨5個罐頭,98%的概率不會缺貨(平均59周發(fā)生一次)。
現(xiàn)在,我們再回過頭,來看美國槍擊案。
假定它們滿足"泊松分布"的三個條件:
(1)槍擊案是小概率事件。
(2)槍擊案是獨(dú)立的,不會互相影響。
(3)槍擊案的發(fā)生概率是穩(wěn)定的。
顯然,第三個條件是關(guān)鍵。如果成立,就說明美國的治安沒有惡化;
如果不成立,就說明槍擊案的發(fā)生概率不穩(wěn)定,正在提高,美國治安惡化。
根據(jù)資料,1982--2012年槍擊案的分布情況如下:
| 每年槍擊案數(shù)量 | 年數(shù) |
|---|---|
| 0 | 4 |
| 1 | 10 |
| 2 | 7 |
| 3 | 5 |
| 4 | 4 |
| 5 | 0 |
| 6 | 0 |
| 7 | 1 |
計算得到,平均每年發(fā)生2起槍擊案,所以 λ = 2 。

上圖中,藍(lán)色的條形柱是實(shí)際的觀察值,紅色的虛線是理論的預(yù)期值??梢钥吹?,觀察值與期望值還是相當(dāng)接近的。
| 每年槍擊案數(shù)量 | 觀察值 | 泊松分布期望值 |
|---|---|---|
| 0 | 4 | 4.2 |
| 1 | 10 | 8.39 |
| 2 | 7 | 8.39 |
| 3 | 5 | 5.59 |
| 4 | 4 | 2.8 |
| 5 | 0 | 1.12 |
| 6 | 0 | 0.37 |
| 7 | 1 | 0.11 |
我們用"卡方檢驗(yàn)"(chi-square test),檢驗(yàn)觀察值與期望值之間是否存在顯著差異。
卡方統(tǒng)計量 = Σ [ ( 觀察值 - 期望值 ) ^ 2 / 期望值 ]
計算得到,卡方統(tǒng)計量等于9.82。查表后得到,置信水平0.90、自由度7的卡方分布臨界值為12.017。
因此,卡方統(tǒng)計量小于臨界值,這表明槍擊案的觀察值與期望值之間沒有顯著差異。
所以,可以接受"發(fā)生槍擊案的概率是穩(wěn)定的"假設(shè),也就是說,從統(tǒng)計學(xué)上無法得到美國治安正在惡化的結(jié)論。
但是,也必須看到,卡方統(tǒng)計量9.82離臨界值很接近,p-value只有0.18。
也就是說,對于"美國治安沒有惡化"的結(jié)論,我們只有82%的把握,還有18%的可能是我們錯了,美國治安實(shí)際上正在惡化。
因此,這就需要看今后兩年中,是否還有大量槍擊案發(fā)生。如果確實(shí)發(fā)生了,泊松分布就不成立了。
定義與推導(dǎo)
1. 定義和現(xiàn)實(shí)應(yīng)用
泊松概率分布描述的是在某段時間或某個空間內(nèi)發(fā)生隨機(jī)事件次數(shù)的概率,簡而言之就是:
根據(jù)過去某個隨機(jī)事件在某段時間或某個空間內(nèi)發(fā)生的平均次數(shù),
預(yù)測該隨機(jī)事件在未來同樣長的時間或同樣大的空間內(nèi)發(fā)生k次的概率。
其概率質(zhì)量函數(shù)為:
其中:
λ是過去某段時間或某個空間內(nèi)隨機(jī)事件發(fā)生的平均次數(shù)
e=2.71828...,是自然常數(shù)
k的取值為 0, 1, 2, 3, 4, ...
k! = k x (k-1) x (k-2) x ... x 2 x 1,是k的階乘
由于泊松分布適用于描述某段時間(或某個空間)內(nèi)隨機(jī)事件發(fā)生的次數(shù),因此它常用于預(yù)測某些事件的發(fā)生。
例如:
- 某家醫(yī)院在一定時間內(nèi)到達(dá)的人數(shù);
- 超市收銀臺在某段時間內(nèi)的結(jié)賬人數(shù);
- 某段時間內(nèi)發(fā)生自然災(zāi)害的次數(shù);
- 某段時間內(nèi)DNA序列的變異數(shù);
- 放射性原子核在一段時間內(nèi)的衰變數(shù)等等。
2. 泊松分布的推導(dǎo)
泊松分布的概率質(zhì)量函數(shù)可以由二項(xiàng)分布的概率質(zhì)量函數(shù)推導(dǎo)而來,下面是推導(dǎo)過程。
二項(xiàng)分布的分布列為:
其中
n代表伯努利試驗(yàn)的次數(shù)
p代表試驗(yàn)成功的概率,則1-p為試驗(yàn)失敗的概率
k代表n次試驗(yàn)中成功的次數(shù),則失敗次數(shù)為n-k
假定在過去的歷史中,某個隨機(jī)事件在固定長度時間段發(fā)生的平均次數(shù)為λ,那么就可以將固定長度的時間分成n等份;
在每等份的時間內(nèi),隨機(jī)事件發(fā)生的概率可以表示為λ/n。若n趨于無窮大,也就是這段時間被分成無數(shù)的小段,那么λ/n的值將趨近于0,也就是在每個等份的時間內(nèi),該隨機(jī)事件發(fā)生兩次或兩次以上是不可能的。
根據(jù)以上假設(shè)條件,在固定長度時間內(nèi),隨機(jī)事件發(fā)生k次的概率服從二項(xiàng)概率分布,可以表示為:
由上可知,在二項(xiàng)分布的伯努利試驗(yàn)中,如果試驗(yàn)次數(shù)n很大,成功概率p很小,
且乘積λ=np比較適中,則事件出現(xiàn)的次數(shù)的概率可以用泊松分布來逼近。
事實(shí)上,二項(xiàng)分布可以看作泊松分布在離散時間上的對應(yīng)物。
3. 泊松分布的性質(zhì)
從泊松分布的概率質(zhì)量函數(shù)可以看出,λ是泊松分布所依賴的唯一參數(shù),隨著歷史平均次數(shù)λ的不同,泊松分布的概率分布形態(tài)也將隨之改變。如下圖,隨著λ的增大,泊松分布的形態(tài)也由右偏分布 (尾巴在右邊) 逐漸變?yōu)閷ΨQ分布。

在實(shí)際情況中,當(dāng)λ很大時,可以用正態(tài)分布近似地處理泊松分布問題
泊松分布的期望值與方差相等,同為參數(shù)λ,即:E(X)=Var(X)=λ (具體推導(dǎo)過程可參考泊松分布的中文維基百科詞條)。
對于這個性質(zhì),也可通過二項(xiàng)分布的期望值和方差進(jìn)行推導(dǎo),我們知道二項(xiàng)分布的期望值和方差分別為和
,則泊松分布的期望值和方差為:
上式推導(dǎo)利用了λ/n的值趨近于0的這個性質(zhì)