常見概率分布介紹

常見概率分布

Bernoulli分布

Bernoulli分布是單個(gè)二值隨機(jī)變量分布, 單參數(shù)\phi?∈[0,1]控制,\phi?給出隨機(jī)變量等于1的概率. 基本形式為:

image.png

其期望為:
E(x)=\sum x P(x)=0 \times q+1 \times p=p
其方差為:
\operatorname{Var}(x)=E\left[(x-E(x))^{2}\right]=\sum(x-p)^{2} P(x)=p q

Multinoulli分布也叫范疇分布, 是單個(gè)k值隨機(jī)分布,經(jīng)常用來表示對(duì)象分類的分布. 其中k是有限值.Multinoulli分布由向量\vec{p}\in[0,1]^{k-1}參數(shù)化,每個(gè)分量p_i表示第i個(gè)狀態(tài)的概率, 且p_k=1-1^Tp?.

適用范圍: 伯努利分布適合對(duì)離散型隨機(jī)變量建模.

高斯分布

高斯也叫正態(tài)分布(Normal Distribution), 概率度函數(shù)如下:
N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )
其中, \mu?\sigma?分別是均值和方差, 中心峰值x坐標(biāo)由\mu?給出, 峰的寬度受\sigma?控制, 最大點(diǎn)在x=\mu?處取得, 拐點(diǎn)為x=\mu\pm\sigma?

正態(tài)分布中,±1\sigma、±2\sigma、±3\sigma下的概率分別是68.3%、95.5%、99.73%,這3個(gè)數(shù)最好記住。

此外, 令\mu=0,\sigma=1?高斯分布即簡化為標(biāo)準(zhǔn)正態(tài)分布:
N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right )
對(duì)概率密度函數(shù)高效求值:
N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right)

其中,\beta=\frac{1}{\sigma^2}通過參數(shù)\beta∈(0,\infty)?來控制分布精度。

何時(shí)采用正態(tài)分布

問: 何時(shí)采用正態(tài)分布?
答: 缺乏實(shí)數(shù)上分布的先驗(yàn)知識(shí), 不知選擇何種形式時(shí), 默認(rèn)選擇正態(tài)分布總是不會(huì)錯(cuò)的, 理由如下:

  1. 中心極限定理告訴我們, 很多獨(dú)立隨機(jī)變量均近似服從正態(tài)分布, 現(xiàn)實(shí)中很多復(fù)雜系統(tǒng)都可以被建模成正態(tài)分布的噪聲, 即使該系統(tǒng)可以被結(jié)構(gòu)化分解.
  2. 正態(tài)分布是具有相同方差的所有概率分布中, 不確定性最大的分布, 換句話說, 正態(tài)分布是對(duì)模型加入先驗(yàn)知識(shí)最少的分布.

正態(tài)分布的推廣:
正態(tài)分布可以推廣到R^n空間, 此時(shí)稱為多位正態(tài)分布, 其參數(shù)是一個(gè)正定對(duì)稱矩陣\Sigma?:
N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)
對(duì)多為正態(tài)分布概率密度高效求值:
N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right)
此處,\vec\beta是一個(gè)精度矩陣。

指數(shù)分布

深度學(xué)習(xí)中, 指數(shù)分布用來描述在x=0?點(diǎn)處取得邊界點(diǎn)的分布, 指數(shù)分布定義如下:
p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x})
指數(shù)分布用指示函數(shù)I_{x\geq 0}?來使x?取負(fù)值時(shí)的概率為零。

Laplace 分布

一個(gè)聯(lián)系緊密的概率分布是 Laplace 分布(Laplace distribution),它允許我們?cè)谌我庖稽c(diǎn) \mu處設(shè)置概率質(zhì)量的峰值
Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)

Dirac分布和經(jīng)驗(yàn)分布

Dirac分布可保證概率分布中所有質(zhì)量都集中在一個(gè)點(diǎn)上. Diract分布的狄拉克\delta?函數(shù)(也稱為單位脈沖函數(shù))定義如下:
p(x)=\delta(x-\mu), x\neq \mu

\int_{a}^\delta(x-\mu)dx = 1, a < \mu < b

Dirac 分布經(jīng)常作為 經(jīng)驗(yàn)分布(empirical distribution)的一個(gè)組成部分出現(xiàn)
\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})
, 其中, m個(gè)點(diǎn)x^{1},...,x^{m}是給定的數(shù)據(jù)集, 經(jīng)驗(yàn)分布將概率密度\frac{1}{m}?賦給了這些點(diǎn).

當(dāng)我們?cè)谟?xùn)練集上訓(xùn)練模型時(shí), 可以認(rèn)為從這個(gè)訓(xùn)練集上得到的經(jīng)驗(yàn)分布指明了采樣來源.

適用范圍: 狄拉克δ函數(shù)適合對(duì)連續(xù)型隨機(jī)變量的經(jīng)驗(yàn)分布.

期望、方差、協(xié)方差、相關(guān)系數(shù)

期望

在概率論和統(tǒng)計(jì)學(xué)中,數(shù)學(xué)期望(或均值,亦簡稱期望)是試驗(yàn)中每次可能結(jié)果的概率乘以其結(jié)果的總和。它反映隨機(jī)變量平均取值的大小。

  • 線性運(yùn)算: E(ax+by+c) = aE(x)+bE(y)+c
  • 推廣形式: E(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)+c}
  • 函數(shù)期望:設(shè)f(x)x的函數(shù),則f(x)的期望為
    • 離散函數(shù): E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}
    • 連續(xù)函數(shù): E(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}

注意:

  • 函數(shù)的期望大于等于期望的函數(shù)(Jensen不等式),即E(f(x))\geqslant f(E(x))
  • 一般情況下,乘積的期望不等于期望的乘積。
  • 如果XY相互獨(dú)立,則E(xy)=E(x)E(y)?

方差

概率論中方差用來度量隨機(jī)變量和其數(shù)學(xué)期望(即均值)之間的偏離程度。方差是一種特殊的期望。定義為:

Var(x) = E((x-E(x))^2)

方差性質(zhì):

1)Var(x) = E(x^2) -E(x)^2
2)常數(shù)的方差為0;
3)方差不滿足線性性質(zhì);
4)如果XY相互獨(dú)立, Var(ax+by)=a^2Var(x)+b^2Var(y)

協(xié)方差

協(xié)方差是衡量兩個(gè)變量線性相關(guān)性強(qiáng)度及變量尺度。 兩個(gè)隨機(jī)變量的協(xié)方差定義為:
Cov(x,y)=E((x-E(x))(y-E(y)))

方差是一種特殊的協(xié)方差。當(dāng)X=Y時(shí),Cov(x,y)=Var(x)=Var(y)。

協(xié)方差性質(zhì):

1)獨(dú)立變量的協(xié)方差為0。
2)協(xié)方差計(jì)算公式:

Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)}

3)特殊情況:

Cov(a+bx, c+dy) = bdCov(x, y)

相關(guān)系數(shù)

相關(guān)系數(shù)是研究變量之間線性相關(guān)程度的量。兩個(gè)隨機(jī)變量的相關(guān)系數(shù)定義為:
Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}

相關(guān)系數(shù)的性質(zhì):
1)有界性。相關(guān)系數(shù)的取值范圍是 [-1,1],可以看成無量綱的協(xié)方差。
2)值越接近1,說明兩個(gè)變量正相關(guān)性(線性)越強(qiáng)。越接近-1,說明負(fù)相關(guān)性越強(qiáng),當(dāng)為0時(shí),表示兩個(gè)變量沒有相關(guān)性。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容