轉(zhuǎn)自：
http://www.ruanyifeng.com/blog/2013/01/poisson_distribution.html
http://www.itdecent.cn/p/91cf85a48823

去年12月，美國康涅狄格州發(fā)生校園槍擊案，造成28人死亡。
資料顯示，1982年至2012年，美國共發(fā)生62起（大規(guī)模）槍擊案。其中，2012年發(fā)生了7起，是次數(shù)最多的一年。

image

去年有這么多槍擊案，這是巧合，還是美國治安惡化了？
前幾天，我看到一篇很有趣的文章，使用"泊松分布"（Poisson distribution），判斷同一年發(fā)生7起槍擊案是否巧合。
讓我們先通過一個例子，了解什么是"泊松分布"。

已知某家小雜貨店，平均每周售出2個水果罐頭。請問該店水果罐頭的最佳庫存量是多少？

假定不存在季節(jié)因素，可以近似認(rèn)為，這個問題滿足以下三個條件：

（1）顧客購買水果罐頭是小概率事件。
（2）購買水果罐頭的顧客是獨(dú)立的，不會互相影響。
（3）顧客購買水果罐頭的概率是穩(wěn)定的。

在統(tǒng)計學(xué)上，只要某類事件滿足上面三個條件，它就服從"泊松分布"。
泊松分布的公式如下：
$P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}$

各個參數(shù)的含義：

P：每周銷售k個罐頭的概率。
X：水果罐頭的銷售變量。
k：X的取值（0，1，2，3...）。
λ：每周水果罐頭的平均銷售量，是一個常數(shù)，本題為2。

根據(jù)公式，計算得到每周銷量的分布：

每周罐頭銷量(k)	概率(P)	累計概率
X=0	0.135	0.135
X=1	0.271	0.406
X=2	0.271	0.677
X=3	0.180	0.857
X=4	0.090	0.947
X=5	0.036	0.983
X>=6	0.017	1.000

從上表可見，如果存貨4個罐頭，95%的概率不會缺貨（平均每19周發(fā)生一次）；
如果存貨5個罐頭，98%的概率不會缺貨（平均59周發(fā)生一次）。

現(xiàn)在，我們再回過頭，來看美國槍擊案。
假定它們滿足"泊松分布"的三個條件：

（1）槍擊案是小概率事件。
（2）槍擊案是獨(dú)立的，不會互相影響。
（3）槍擊案的發(fā)生概率是穩(wěn)定的。

顯然，第三個條件是關(guān)鍵。如果成立，就說明美國的治安沒有惡化；
如果不成立，就說明槍擊案的發(fā)生概率不穩(wěn)定，正在提高，美國治安惡化。
根據(jù)資料，1982--2012年槍擊案的分布情況如下：

每年槍擊案數(shù)量	年數(shù)
0	4
1	10
2	7
3	5
4	4
5	0
6	0
7	1

計算得到，平均每年發(fā)生2起槍擊案，所以 λ = 2 。

image

上圖中，藍(lán)色的條形柱是實(shí)際的觀察值，紅色的虛線是理論的預(yù)期值?？梢钥吹?，觀察值與期望值還是相當(dāng)接近的。

每年槍擊案數(shù)量	觀察值	泊松分布期望值
0	4	4.2
1	10	8.39
2	7	8.39
3	5	5.59
4	4	2.8
5	0	1.12
6	0	0.37
7	1	0.11

我們用"卡方檢驗(yàn)"（chi-square test），檢驗(yàn)觀察值與期望值之間是否存在顯著差異。

卡方統(tǒng)計量 = Σ [ ( 觀察值 - 期望值 ) ^ 2 / 期望值 ]

計算得到，卡方統(tǒng)計量等于9.82。查表后得到，置信水平0.90、自由度7的卡方分布臨界值為12.017。
因此，卡方統(tǒng)計量小于臨界值，這表明槍擊案的觀察值與期望值之間沒有顯著差異。
所以，可以接受"發(fā)生槍擊案的概率是穩(wěn)定的"假設(shè)，也就是說，從統(tǒng)計學(xué)上無法得到美國治安正在惡化的結(jié)論。

但是，也必須看到，卡方統(tǒng)計量9.82離臨界值很接近，p-value只有0.18。
也就是說，對于"美國治安沒有惡化"的結(jié)論，我們只有82%的把握，還有18%的可能是我們錯了，美國治安實(shí)際上正在惡化。
因此，這就需要看今后兩年中，是否還有大量槍擊案發(fā)生。如果確實(shí)發(fā)生了，泊松分布就不成立了。

定義與推導(dǎo)

1. 定義和現(xiàn)實(shí)應(yīng)用

泊松概率分布描述的是在某段時間或某個空間內(nèi)發(fā)生隨機(jī)事件次數(shù)的概率，簡而言之就是：
根據(jù)過去某個隨機(jī)事件在某段時間或某個空間內(nèi)發(fā)生的平均次數(shù)，
預(yù)測該隨機(jī)事件在未來同樣長的時間或同樣大的空間內(nèi)發(fā)生k次的概率。
其概率質(zhì)量函數(shù)為：
$P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}$
其中：

λ是過去某段時間或某個空間內(nèi)隨機(jī)事件發(fā)生的平均次數(shù)
e=2.71828...，是自然常數(shù)
k的取值為 0, 1, 2, 3, 4, ...
k! = k x (k-1) x (k-2) x ... x 2 x 1，是k的階乘

由于泊松分布適用于描述某段時間(或某個空間)內(nèi)隨機(jī)事件發(fā)生的次數(shù)，因此它常用于預(yù)測某些事件的發(fā)生。
例如：

某家醫(yī)院在一定時間內(nèi)到達(dá)的人數(shù)；
超市收銀臺在某段時間內(nèi)的結(jié)賬人數(shù)；
某段時間內(nèi)發(fā)生自然災(zāi)害的次數(shù)；
某段時間內(nèi)DNA序列的變異數(shù)；
放射性原子核在一段時間內(nèi)的衰變數(shù)等等。

2. 泊松分布的推導(dǎo)

泊松分布的概率質(zhì)量函數(shù)可以由二項(xiàng)分布的概率質(zhì)量函數(shù)推導(dǎo)而來，下面是推導(dǎo)過程。
二項(xiàng)分布的分布列為：
$P(X=k)=C_{n}^{k}p^k(1-p)^{n-k}, k=0,1,2,...,n$
其中

n代表伯努利試驗(yàn)的次數(shù)
p代表試驗(yàn)成功的概率，則1-p為試驗(yàn)失敗的概率
k代表n次試驗(yàn)中成功的次數(shù)，則失敗次數(shù)為n-k

假定在過去的歷史中，某個隨機(jī)事件在固定長度時間段發(fā)生的平均次數(shù)為λ，那么就可以將固定長度的時間分成n等份；
在每等份的時間內(nèi)，隨機(jī)事件發(fā)生的概率可以表示為λ/n。若n趨于無窮大，也就是這段時間被分成無數(shù)的小段，那么λ/n的值將趨近于0，也就是在每個等份的時間內(nèi)，該隨機(jī)事件發(fā)生兩次或兩次以上是不可能的。
根據(jù)以上假設(shè)條件，在固定長度時間內(nèi)，隨機(jī)事件發(fā)生k次的概率服從二項(xiàng)概率分布，可以表示為：
$\quad \lim_{n \to \infty}P(X=k)$
$=\lim_{n \to \infty}\binom{n}{k}p^k(1-p)^{n-k}$
$=\lim_{n \to \infty}\frac{n!}{(n-k)!k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}$
$=\lim_{n \to \infty} \underbrace{\begin{bmatrix}\frac{n!}{(n-k)!n^k}\end{bmatrix}}_{F} (\frac{\lambda^{k}}{k!}) \underbrace{(1-\frac{\lambda}{n})^n}_{\to exp(-\lambda)} \underbrace{(1-\frac{\lambda}{n})^{- k}}_{\to 1}$
$=\lim_{n \to \infty} \underbrace{\begin{bmatrix}(1-\frac{1}{n})(1-\frac{2}{n})…(1-\frac{k-1}{n})\end{bmatrix}}_{\to1} (\frac{\lambda^{k}}{{k}!}) \underbrace{(1-\frac{\lambda}{n})^n}_{\to exp(-\lambda)} \underbrace{(1-\frac{\lambda}{n})^{-k}}_{\to 1}$
$=(\frac{\lambda^{k}}{{k}!}) exp(-\lambda)$

由上可知，在二項(xiàng)分布的伯努利試驗(yàn)中，如果試驗(yàn)次數(shù)n很大，成功概率p很小，
且乘積λ=np比較適中，則事件出現(xiàn)的次數(shù)的概率可以用泊松分布來逼近。
事實(shí)上，二項(xiàng)分布可以看作泊松分布在離散時間上的對應(yīng)物。

3. 泊松分布的性質(zhì)

從泊松分布的概率質(zhì)量函數(shù)可以看出，λ是泊松分布所依賴的唯一參數(shù)，隨著歷史平均次數(shù)λ的不同，泊松分布的概率分布形態(tài)也將隨之改變。如下圖，隨著λ的增大，泊松分布的形態(tài)也由右偏分布 (尾巴在右邊) 逐漸變?yōu)閷ΨQ分布。

image

在實(shí)際情況中，當(dāng)λ很大時，可以用正態(tài)分布近似地處理泊松分布問題

泊松分布的期望值與方差相等，同為參數(shù)λ，即：E(X)=Var(X)=λ (具體推導(dǎo)過程可參考泊松分布的中文維基百科詞條)。
對于這個性質(zhì)，也可通過二項(xiàng)分布的期望值和方差進(jìn)行推導(dǎo)，我們知道二項(xiàng)分布的期望值和方差分別為 $np$ 和 $npq$ ，則泊松分布的期望值和方差為：
$E(X)=np=n\frac{\lambda}{n}=\lambda$
$Var(X)=npq=np(1-p)=n\frac{\lambda}{n}(1-\frac{\lambda}{n})=\lambda$

上式推導(dǎo)利用了λ/n的值趨近于0的這個性質(zhì)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2.4.2 常用離散分布 - 泊松分布

2.4.2 常用離散分布 - 泊松分布

定義與推導(dǎo)

1. 定義和現(xiàn)實(shí)應(yīng)用

2. 泊松分布的推導(dǎo)

3. 泊松分布的性質(zhì)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

2.4.2 常用離散分布 - 泊松分布

定義與推導(dǎo)

1. 定義和現(xiàn)實(shí)應(yīng)用

2. 泊松分布的推導(dǎo)

3. 泊松分布的性質(zhì)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av