概率分布基礎知識

一、前言

概率分布(probabilitydistribution)或簡稱分布(distribution),是概率論的一個概念。

具有相同分布函數(shù)的隨機變量一定是同分布的,因此可以用分布函數(shù)來描述一個分布,但更常用的描述手段是概率密度函數(shù)(probability density function,pdf)。

二、基本概念

1. 隨機變量

隨機變量(random variable)表示隨機試驗各種結(jié)果的實值單值函數(shù)。隨機事件不論與數(shù)量是否直接有關,都可以數(shù)量化,即都能用數(shù)量化的方式表達。

隨機事件數(shù)量化的好處是可以用數(shù)學分析的方法來研究隨機現(xiàn)象。例如某一時間內(nèi)公共汽車站等車乘客人數(shù),電話交換臺在一定時間內(nèi)收到的呼叫次數(shù),燈泡的壽命等等,都是隨機變量的實例。

隨機變量是隨機試驗樣本空間上的單值實數(shù)函數(shù),分為離散型隨機變量 與 連續(xù)型隨機變量。
離散型隨機變量:取值可以一一列舉,有限個或者可列舉的無限多個。
連續(xù)型隨機變量:取值不能一一列舉,可能取值連續(xù)的充滿了某一區(qū)間。

2.古典概率

1)概率的定義

表示一個事件發(fā)生的可能性的大小的數(shù)。

2)古典概率的定義

如果試驗中可能出現(xiàn)的基本事件數(shù)有n個,而事件A包含的基本事件數(shù)為m個,A的概率。

3)特征

  • 有限性
    所有基本事件是有限個。
  • 等可能性
    各基本事件發(fā)生的可能性是相等的。

3. 條件概率

條件概率是指事件A在另外一個事件B已經(jīng)發(fā)生條件下的發(fā)生概率。條件概率表示為:P(A|B),讀作“在B的條件下A的概率”。

若只有兩個事件A,B,則條件概率公式


4. 離散變量

離散型(discrete)隨機變量即在一定區(qū)間內(nèi)變量取值為有限個或可數(shù)個。例如某地區(qū)某年人口的出生數(shù)、死亡數(shù),某藥治療某病病人的有效數(shù)、無效數(shù)等。離散型隨機變量通常依據(jù)概率質(zhì)量函數(shù)分類,主要分為:伯努利隨機變量、二項隨機變量、幾何隨機變量和泊松隨機變量。

5. 連續(xù)變量

連續(xù)型(continuous)隨機變量即在一定區(qū)間內(nèi)變量取值有無限個,或數(shù)值無法一一列舉出來。例如某地區(qū)男性健康成人的身長值、體重值,一批傳染性肝炎患者的血清轉(zhuǎn)氨酶測定值等。有幾個重要的連續(xù)隨機變量常常出現(xiàn)在概率論中,如:均勻隨機變量、指數(shù)隨機變量、伽馬隨機變量和正態(tài)隨機變量。

6. 期望值

在概率論和統(tǒng)計學中,期望值(或數(shù)學期望、或均值,亦簡稱期望,物理學中稱為期待值)是指在一個離散性隨機變量試驗中每次可能結(jié)果的概率乘以其結(jié)果的總和。

換句話說,期望值是隨機試驗在同樣的機會下重復多次的結(jié)果計算出的等同“期望”的平均值。

三、離散變量概率分布

離散變量的分布函數(shù)的值域是離散的,比如只取整數(shù)值的隨機變量就是屬于離散分布的。

1. 伯努利分布

又稱0-1分布,如果隨機變量X只取0和1兩個值,并且相應的概率為:

則稱隨機變量X服從參數(shù)為p的伯努利分布,若令q=1一p,則X的概率函數(shù)可寫
為:

例子

  • 拋一次硬幣是正面向上嗎?
  • 剛出生的小孩是個女孩嗎?

2. 二項分布

假設某個試驗是伯努利試驗,其成功概率用p表示,那么失敗的概率為q=1-p。進行n次這樣的試驗,成功了x次,則失敗次數(shù)為n-x,發(fā)生這種情況的概率可用下面公式來計算:

我們稱上面的公式為二項分布(Binomial distribution)的概率質(zhì)量函數(shù)。其中

二項分布的應用

  • 將硬幣拋n次,就是n重伯努利試驗;
  • 拋一顆骰子,若A表示得到“1點”,非A表示得到“非1點”。

例子
在擲3次骰子中,不出現(xiàn)6點的概率是:f(3,0,1/6)=(1/6)^0 * (5/6)^3=0.579。

3.泊松分布

泊松近似是二項分布的一種極限形式。其強調(diào)如下的試驗前提:一次抽樣的概率值p相對很小,而抽取次數(shù)n值又相對很大。因此泊松分布又被稱之為罕有事件分布。泊松分布指出,如果隨機一次試驗出現(xiàn)的概率為p,那么在n次試驗中出現(xiàn)k次的概率按照泊松分布應該為:


其中數(shù)學常數(shù)e = 2.71828…(自然對數(shù)的底數(shù))

在實踐中如果遇到n值很大導致二項分布難于計算時,可以考慮使用泊松分布,但前提是n*p必須趨于一個有限極限。采用泊松分布的一個不太嚴格的規(guī)則是:

  • n >= 100
  • p <= 0.1

應用
一本書一頁中的印刷錯誤數(shù);
某地區(qū)在一天內(nèi)郵遞遺失的信件數(shù);
某一醫(yī)院在一天內(nèi)的急診病人數(shù);
某一地區(qū)一個時間間隔內(nèi)發(fā)生交通事故的次數(shù)。
例子
某工廠在生產(chǎn)零件時,每200個成品中會有1個次品,那么在100個零件中最多出現(xiàn)2個次品的概率按照泊松分布應該是:
f(100,0,1/200) + f(100,1,1/200) + f(100,2,1/200) = 0.986

四、連續(xù)變量概率分布

1. 正態(tài)分布

定義
正態(tài)分布(Normal distribution),也稱“常態(tài)分布”,又名高斯分布(Gaussian distribution)。

公式

若隨機變量X服從一個數(shù)學期望為μ、方差為σ2的正態(tài)分布,記為N(μ,σ2)。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。當μ = 0,σ = 1時的正態(tài)分布是標準正態(tài)分布

曲線
正態(tài)曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。
正態(tài)分布曲線

正態(tài)分布中一些值得注意的量:

  1. 密度函數(shù)關于平均值對稱
  2. 平均值與它的眾數(shù)(statistical mode)以及中位數(shù)(median)同一數(shù)值。
  3. 函數(shù)曲線下68.268949%的面積在平均數(shù)左右的一個標準差σ范圍內(nèi)。
  4. 95.449974%的面積在平均數(shù)左右兩個標準差2σ的范圍內(nèi)。
  5. 99.730020%的面積在平均數(shù)左右三個標準差3σ的范圍內(nèi)。
  6. 99.993666%的面積在平均數(shù)左右四個標準差4σ的范圍內(nèi)。
  7. 函數(shù)曲線的拐點(inflection point)為離平均數(shù)一個標準差σ 距離的位置。

2. 均勻分布

定義
在概率論和統(tǒng)計學中,均勻分布也叫矩形分布,它是對稱概率分布,在相同長度間隔的分布概率是等可能的。 均勻分布由兩個參數(shù)a和b定義,它們是數(shù)軸上的最小值和最大值,通常縮寫為U(a,b)。

均勻分布的特征是數(shù)據(jù)在一個區(qū)間中均勻地分布,最小值為 a,最大值為 b。概率密度函數(shù)是:

分布函數(shù):

3. 指數(shù)分布

定義
在概率理論和統(tǒng)計學中,指數(shù)分布(也稱為負指數(shù)分布)是描述泊松過程中的事件之間的時間的概率分布,即事件以恒定平均速率連續(xù)且獨立地發(fā)生的過程。 這是伽馬分布的一個特殊情況。 它是幾何分布的連續(xù)模擬,它具有無記憶(Memoryless Property,又稱遺失記憶性)的關鍵性質(zhì)。 除了用于分析泊松過程外,還可以在其他各種環(huán)境中找到。

公式

其中λ > 0是分布的一個參數(shù),常被稱為率參數(shù)(rate parameter)。即每單位時間內(nèi)發(fā)生某事件的次數(shù)。指數(shù)分布的區(qū)間是[0,∞)。 如果一個隨機變量X呈指數(shù)分布,則可以寫作:X~ E(λ)。

曲線

4. 貝塔(beta)分布

定義
貝塔分布(Beta Distribution) 是一個作為伯努利分布和二項式分布的共軛先驗分布的密度函數(shù),在機器學習和數(shù)理統(tǒng)計學中有重要應用。在概率論中,貝塔分布,也稱Β分布,是指一組定義在(0,1) 區(qū)間的連續(xù)概率分布。

公式

在概率論中,貝塔分布,也稱B分布,是指一組定義在 區(qū)間的連續(xù)概率分布,有兩個參數(shù) 。


使用要點

  1. 先驗概率就是事情尚未發(fā)生前,我們對該事發(fā)生概率的估計。利用過去歷史資料計算得到的先驗概率,稱為客觀先驗概率; 當歷史資料無從取得或資料不完全時,憑人們的主觀經(jīng)驗來判斷而得到的先驗概率,稱為主觀先驗概率。例如拋一枚硬幣頭向上的概率為0.5,這就是主觀先驗概率。
  2. 后驗概率是指通過調(diào)查或其它方式獲取新的附加信息,利用貝葉斯公式對先驗概率進行修正,而后得到的概率。
  3. 先驗概率和后驗概率的區(qū)別:先驗概率不是根據(jù)有關自然狀態(tài)的全部資料測定的,而只是利用現(xiàn)有的材料(主要是歷史資料)計算的;后驗概率使用了有關自然狀態(tài)更加全面的資料,既有先驗概率資料,也有補充資料。另外一種表述:先驗概率是在缺乏某個事實的情況下描述一個變量;而后驗概率是在考慮了一個事實之后的條件概率。
  4. 共軛分布(conjugacy):后驗概率分布函數(shù)與先驗概率分布函數(shù)具有相同形式。

5. 卡方分布

定義
若n個相互獨立的隨機變量ξ?、ξ?、……、ξn ,均服從標準正態(tài)分布(也稱獨立同分布于標準正態(tài)分布),則這n個服從標準正態(tài)分布的隨機變量的平方和

構(gòu)成一新的隨機變量,其卡方分布
規(guī)律稱為χ2分布(chi-square distribution),其中參數(shù)n稱為自由度,正如正態(tài)分布中均值或方差不同就是另一個χ2正態(tài)分布一樣,自由度不同就是另一個分布。記為 Q~χ2(k). 卡方分布是由正態(tài)分布構(gòu)造而成的一個新的分布,當自由度n很大時,χ2分布近似為正態(tài)分布。 對于任意正整數(shù)k, 自由度為 k的卡方分布是一個隨機變量X的機率分布。

卡方分布是指樣本方差和總體方差之間的比值關系。
如果樣本量為n的樣本集取自方差為σ 的正態(tài)分布總體,對每一個樣本都計算他的卡方值(χ2),那么卡方值將構(gòu)成樣本方差和總體方差的卡方分布。
卡方分布是右偏的,但是當樣本量,即自由度增加時,會逐漸趨向于正態(tài)分布。

6. F分布

定義

定義

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容