人工智能數(shù)學(xué)基礎(chǔ)之概率論

概率論

基礎(chǔ)概念

隨機(jī)試驗(yàn)

試驗(yàn)是指為了觀察某事的結(jié)果或某物的性能而從事的某種活動(dòng)。在概率論中,一個(gè)試驗(yàn)如果具有以下3個(gè)特點(diǎn):

  1. 可重復(fù)性:在相同條件下可以重復(fù)進(jìn)行
  2. 可觀察性:每次實(shí)現(xiàn)的可能結(jié)果不止一個(gè),并且能事先明確實(shí)驗(yàn)的所有可能結(jié)果
  3. 不確定性:一次試驗(yàn)之前,不能預(yù)知會(huì)出現(xiàn)哪一個(gè)結(jié)果

這樣的試驗(yàn)是一個(gè)隨機(jī)試驗(yàn),簡(jiǎn)稱為試驗(yàn)

樣本點(diǎn)和樣本空間

每次試驗(yàn)的每一個(gè)結(jié)果成為基本事件,也稱作樣本點(diǎn),記作w_1,w_2,\cdots, 全部樣本點(diǎn)的集合成為樣本空間,記作\Omega,則\Omega=\{w_1,w_2,\cdots\}

假設(shè)擲一顆均勻骰子,觀察出現(xiàn)的點(diǎn)數(shù)。這是一個(gè)隨機(jī)試驗(yàn),樣本空間\Omega=\{1,2,3,4,5,6\}

隨機(jī)事件

基本事件是不可再分解的、最基本的事件,其他事件均可由它們復(fù)合而成,由基本事件復(fù)合而成的事件稱為隨機(jī)事件或簡(jiǎn)稱為事件。
常用大寫字母A,B,C等表示事件。不如A=\{出現(xiàn)的點(diǎn)數(shù)為偶數(shù)\}=\{2,4,6\}

隨機(jī)事件的概率

概率是用來描述隨機(jī)事件發(fā)生的可能性大小。比如拋硬幣的試驗(yàn),拋得次數(shù)越多,出現(xiàn)正面的 次數(shù)與投擲次數(shù)之間的比例愈加趨于0.5。它的數(shù)學(xué)定義為:

在多次重復(fù)試驗(yàn)中,若事件A發(fā)生的頻率穩(wěn)定在常數(shù)p附近擺動(dòng),且隨著試驗(yàn)次數(shù)的增加,這種擺動(dòng)的幅度是很微小的。則稱確定常數(shù)p為事件A發(fā)生的概率,記作P(A)=p

例子
設(shè)一年有365天,求下列事件A,B的概率:
A = \{n個(gè)人中沒有2人同一天生日\(chéng)} B = \{n個(gè)人中有2人同一天生日\(chéng)}


顯然事件A,B是對(duì)立事件,有P(B)=1 - P(A)
由于每人的生日可能是365天的任意一天,因此,n個(gè)人的生日有365^n種可能結(jié)果,而且每種結(jié)果是等可能的,因而是古典概型,事件A的發(fā)生必須是n個(gè)不同的生日,因而A的樣本點(diǎn)數(shù)為從365中取n個(gè)的排列數(shù)P^n_{365},于是

P(A) = \frac{P^n_{365}}{365^n} \\ P(B) = 1 - P(A) = 1 - \frac{P^n_{365}}{365^n}

條件概率

設(shè)A,B是兩個(gè)事件,且P(A)>0,則稱
P(B|A) = \frac{P(AB)}{P(A)}
為在事件A發(fā)生的條件下,事件B條件概率
P(AB)表示A,B這兩個(gè)事件同時(shí)發(fā)生的概率。

例子
某種原件用滿6000h未壞的概率是3/4,用滿10000h未壞的概率是1/2,現(xiàn)有一個(gè)此種元件,已經(jīng)用過6000h未壞,試求它能用到10000h的概率。

設(shè)A表示\{滿10000h未壞\},B表示\{滿6000小時(shí)未壞\},則
P(B)=3/4,P(A)=1/2

由于B \supset A,AB=A,因而P(AB)=1/2,因此,
P(A|B)=\frac{P(AB)}{P(B)} = \frac{\frac{1}{2}}{\frac{3}{4}}=\frac{2}{3}

解釋一下,這里由于事件A包括事件B的。

事件的獨(dú)立性

如果事件B發(fā)生的可能性不受事件A發(fā)生與否的影響,即
P(B|A)=P(B)
則稱事件B對(duì)于事件A獨(dú)立,顯然,若B對(duì)A對(duì)立,則A對(duì)B也一定獨(dú)立,稱事件A與事件B相互獨(dú)立。

例子
口袋里裝有5個(gè)黑球與3個(gè)白球,從中有放回地取2次,每次取一個(gè),設(shè)事件A表示第一次取到黑球,事件B表示第二次取到黑球,則有
P(A)=\frac{5}{8},P(B)=\frac{5}{8},P(AB)=\frac{5}{8} \times \frac{5}{8} = \frac{25}{64}

因而
P(B|A) = \frac{P(AB)}{P(A)} = \frac{5}{8}
因此,P(B|A) = P(B),這表明無論A是否發(fā)生,都對(duì)B發(fā)生的概率無影響。事件A,B相互獨(dú)立

性質(zhì)

事件A和事件B相互獨(dú)立的充分必要條件是
P(AB)=P(A)P(B)

全概率公式

如果事件A_1,A_2,\cdots,A_n是一個(gè)完備事件組(一個(gè)事件發(fā)生的所有可能性都在這里面),并且都有正概率,則有
P(B)=P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+\cdots+P(A_n)P(B|A_n) = \sum_{i=1}^nP(A_i)P(B|A_i)

對(duì)于任何事件B,事件A\overline{A}構(gòu)成最簡(jiǎn)單的完備事件組,根據(jù)全概率公式得
P(B)=P(AB+\overline{A}B)=P(AB)+P(\overline{A}B)=P(A)P(B|A)+P(\overline{A})P(B|\overline{A})

貝葉斯公式

設(shè)事件A_1,A_2,\cdots,A_n是一個(gè)完備事件組,則對(duì)任一事件BP(B)>0,有
P(A_i|B)=\frac{P(A_iB)}{P(B)}=\frac{P(A_i)P(B|A_i)}{\sum^n_{i=1}P(A_i)P(B|A_i)}

以上公式就叫貝葉斯公式,可由條件概率的定義及全概率公式證明。

例子
市場(chǎng)上供應(yīng)的某種商品由甲、乙、丙3個(gè)廠商生存,甲廠占45%,乙廠占35%,丙廠占20%。如果各廠的次品率依次為4%,2%,5%?,F(xiàn)從市場(chǎng)上購買1件這種商品,發(fā)現(xiàn)是次品,試判斷它是由甲廠生產(chǎn)的概率。

設(shè)事件A_1,A_2,A_3,分別表示商品由甲、乙、丙廠生產(chǎn)的,事件B表示商品為次品,得概率
P(A_1)=0.45,P(A_2)=0.35,P(A_3)=0.20 \\ P(B|A_1) = 0.04,P(B|A_2)=0.02,P(B|A_3)=0.05

根據(jù)貝葉斯公式,可得:
P(A_1|B)=\frac{P(A_1B)}{P(B)} = \frac{P(A_1)P(B|A_1)}{P(A_1)P(B|A_1)+P(A_2)P(B|A_2) + P(A_3)P(B|A_3)} \\ = \frac{0.45\times 0.04}{0.45 \times 0.04 + 0.35\times 0.02 + 0.2 \times 0.05} \approx 0.514

在購買一件商品這個(gè)試驗(yàn)中,P(A_i)是在試驗(yàn)以前就已經(jīng)知道的概率,所以習(xí)慣地稱為先驗(yàn)概率。試驗(yàn)結(jié)果出現(xiàn)了次品,這時(shí)條件概率P(A_i|B)反映了在試驗(yàn)以后對(duì)B發(fā)生的來源(次品的來源)的各種可能性的大小,稱為后驗(yàn)概率

隨機(jī)變量

把試驗(yàn)的結(jié)果與實(shí)數(shù)對(duì)應(yīng)起來,隨試驗(yàn)結(jié)果的不同而變化的量就是隨機(jī)變量,包含離散型隨機(jī)變量和連續(xù)性隨機(jī)變量。

概率分布

設(shè)離散型隨機(jī)變量X的所有可能取值為x_1,x_2,\cdots,x_n,稱
P\{X=x_k\} = p_k (k=1,2,\cdots)
X概率分布。

離散型隨機(jī)變量X的分布律具有下列基本性質(zhì):

1.p_k \geq 0,K=1,2,\cdots;
2.\sum_{i=1}^{+\infty}p_k=1

下面看一下常見的離散型概率分布。

二項(xiàng)分布

二項(xiàng)分布是一種離散型的概率分布。二項(xiàng)代表它有兩種可能的結(jié)果:成功或不成功。每次試驗(yàn)必須相互獨(dú)立,重復(fù)n次,并且每次試驗(yàn)成功的概率是相同的,為p:失敗的概率也相同,為1-p

拋硬幣就是一個(gè)典型的二項(xiàng)分布。當(dāng)我們要計(jì)算拋硬幣n次,恰好有x次正面朝上的概率,可以使用二項(xiàng)分布的公式:
P\{X=k\}=C_n^kp^k(1-p)^{n-k}

在這里插入圖片描述

泊松分布

如果隨機(jī)變量X的概率分布為
P\{X=k\} = \frac{\lambda ^k}{k!} e^{-\lambda},k=0,1,2,\cdots
式中,\lambda>0為常數(shù),則稱隨機(jī)變量X服從參數(shù)為\lambda的泊松分布,記為X\sim P(\lambda)

在這里插入圖片描述

概率密度函數(shù)

若存在非負(fù)函數(shù)f(x),使一個(gè)連續(xù)型隨機(jī)變量X取值于任一區(qū)間(a,b]的概率可以表示為
P\{a<X\leq b\} = \int^b_af(x)d_x
則稱f(x)為隨機(jī)變量X概率密度函數(shù),簡(jiǎn)稱概率密度密度函數(shù)

正態(tài)分布

又常稱為高斯分布,其概率密度函數(shù)為
f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

具有兩個(gè)參數(shù)\mu\sigma^2,\mu代表服從正態(tài)分布的隨機(jī)變量的均值,\sigma^2是此隨機(jī)變量的方差。如果一個(gè)隨機(jī)變量服從均值\mu,標(biāo)準(zhǔn)差為\sigma的正太分布,記作
X\sim N(\mu,\sigma^2)

我們通常稱均值為0,標(biāo)準(zhǔn)差為1的正態(tài)分布為標(biāo)準(zhǔn)正態(tài)分布。

在這里插入圖片描述

上圖中藍(lán)線就是標(biāo)準(zhǔn)正態(tài)分布

隨機(jī)變量的期望

對(duì)于一個(gè)隨機(jī)變量,經(jīng)常要考慮它平均取什么,期望就是概率論中的平均值,對(duì)隨機(jī)變量中心位置的一種度量。

例子

經(jīng)過長(zhǎng)期觀察積累,某射手在每次射擊命中的環(huán)數(shù)X服從分布:

X 0 5 6 7 8 9 10
P_i 0 0.05 0.05 0.1 0.1 0.2 0.5

求這個(gè)射手平均命中的環(huán)數(shù)是多少?


假設(shè)該射手進(jìn)行了100次射擊,那么,約有5次命中5環(huán),5次命中6環(huán),10次命中7環(huán),10次命中8環(huán),20次命中9環(huán),50次命中10環(huán),從而在一次射擊中,該射手平均命中的環(huán)數(shù)為:

\frac{1}{100}(10\times 50 + 9 \times 20 + 8\times 10 + 7 \times10 +6 \times 5 + 5 \times 5 + 0 \times 0) = 8.85

我們可以看到離散型的隨機(jī)變量的期望值可以用每種取值與概率相乘之和來得到:

E(X)= \sum_{i=1}^{+\infty}x_ip_k

期望的性質(zhì)

  1. E(c) = c
  2. E(X+c) = E(X) +c
  3. E(kX) = kE(X)
  4. E(kX+c)=kE(X)+c
  5. E(X+Y)=E(X)+E(Y)

隨機(jī)變量的方差

方差表示隨機(jī)變量的變異性,方差越大,隨機(jī)變量的結(jié)果越不穩(wěn)定。

設(shè)X為一隨機(jī)變量,若
E[X-E(X)]^2
存在,則稱其為X的方差,記為D(X),即
D(X) = E[X-E(X)]^2 = \frac{\sum (X - E(X))^2}{N}
而稱\sqrt{D(X)}X標(biāo)準(zhǔn)差或均方差

方差還可以表示為:

由方差的定義和數(shù)學(xué)期望的性質(zhì),可以推出方差的計(jì)算公式:

D(X)=E(X^2) - [E(X)]^2

方差的性質(zhì)

  1. D(c)=0
  2. D(X+c) = D(X)
  3. D(cX) = c^2D(X)

例子

甲、乙兩車間生產(chǎn)同一種產(chǎn)品,設(shè)1000件產(chǎn)品中的次品數(shù)量分別為隨機(jī)變量X,Y,已知他們的分布律如下:

X 0 1 2 3
P_i 0.2 0.1 0.5 0.2
Y 0 1 2 3
P_i 0.1 0.3 0.4 0.2

式討論甲、乙兩車間的產(chǎn)品質(zhì)量。

先計(jì)算均值
E(X)=0\times 0.2 + 1 \times 0.1 + 2 \times 0.5 + 3 \times 0.2 = 1.7 \\ E(Y)=0\times 0.1 + 1 \times 0.3 + 2 \times 0.4 + 3 \times 0.2 = 1.7

得到,甲、乙兩車間次品數(shù)的均值相同。

再計(jì)算方差
D(X)=(0-1.7)^2 \times 0.2 +(1-1.7)^2 \times 0.1 + (2-1.7)^2 \times 0.1 + (2-1.7)^2 \times 0.5 + (3-1.7)^2 \times 0.2 = 1.01\\ D(Y)=(0-1.7)^2 \times 0.1 +(1-1.7)^2 \times 0.3 + (2-1.7)^2 \times 0.4 + (2-1.7)^2 \times 0.4 + (3-1.7)^2 \times 0.2 = 0.81

以上用到了公式E(X)= \sum_{i=1}^{+\infty}x_ip_kD(X) = E[X-E(X)]^2

說明乙車間的產(chǎn)品質(zhì)量比較穩(wěn)定。

協(xié)方差

期望值分別為E(X) = \muE(Y) = v的兩個(gè)隨機(jī)變量之間的協(xié)方差定義為:
cov(X,Y) = E((X - \mu)(Y - v)) = E(X \cdot Y) - \mu v

協(xié)方差表示兩個(gè)變量的總體的誤差,這與只表示一個(gè)變量誤差的方差不同。如果兩個(gè)變量的變化趨勢(shì)一致,即其中一個(gè)大于自身的期望值,另一個(gè)是正值。如果兩個(gè)變量的變化趨勢(shì)相反,即其中一個(gè)大于自身的期望值,另一個(gè)卻小于自身的期望值,那么兩個(gè)變量之間的協(xié)方差就是負(fù)值。

如果XY式統(tǒng)計(jì)獨(dú)立的,那么二者之間的協(xié)方差就是0,因?yàn)?br> E(X \cdot Y) = E(X) \cdot E(Y) = \mu v
但是反過來并不成立。

取決于協(xié)方差的線性相關(guān)性\eta
\eta = \frac{cov(X,Y)}{\sqrt{var(X) \cdot var(Y)}}
\eta是衡量線性獨(dú)立的無量綱數(shù),取值[-1,1]之間。當(dāng)\eta = 1稱為完全線性相關(guān);當(dāng)\eta = -1稱為完全線性負(fù)相關(guān);當(dāng)\eta = 0說兩個(gè)隨機(jī)變量是不相關(guān)的,或者說線性無關(guān)。

\eta越接近于1表明線性相關(guān)性越好。

在這里插入圖片描述

協(xié)方差的性質(zhì)

  1. cov(X,X) = var(X)
  2. cov(X,Y) = cov(Y,X)
  3. cov(aX,bY) = ab \, cov(X,Y)

其中a,b是常數(shù)。
性質(zhì)1說的是,針對(duì)同一個(gè)隨機(jī)變量,協(xié)方差就是方差。

協(xié)方差矩陣

協(xié)方差矩陣是一個(gè)矩陣,矩陣中的第(i,j)個(gè)元素是X_iX_j的協(xié)方差。這個(gè)概念是對(duì)于標(biāo)量隨機(jī)變量方差的一般化推廣。

在這里插入圖片描述
在這里插入圖片描述

其中,對(duì)角線上的元素為各個(gè)隨機(jī)變量的方差,非對(duì)角線上的元素為多維隨機(jī)變量各維度兩兩之間的協(xié)方差。

盡管協(xié)方差矩陣很簡(jiǎn)單,可它卻是很多領(lǐng)域里的非常有力的工具。它能導(dǎo)出一個(gè)變換矩陣,這個(gè)矩陣能使數(shù)據(jù)完全去相關(guān)(decorrelation)。從不同的角度看,也就是說能夠找出一組最佳的基以緊湊的方式來表達(dá)數(shù)據(jù)。 這個(gè)方法在統(tǒng)計(jì)學(xué)中被稱為主成分分析(principal components analysis),在圖像處理中稱為Karhunen-Loève 變換(KL-變換)。

摘自維基百科

最大似然估計(jì)

概率vs統(tǒng)計(jì)

概率研究的問題是,已知一個(gè)模型和參數(shù),怎么去預(yù)測(cè)這個(gè)模型產(chǎn)生的結(jié)果的特性(均值,方差等)。統(tǒng)計(jì)研究的問題則相反,它是有一堆數(shù)據(jù),要利用這堆數(shù)據(jù)去預(yù)測(cè)模型和參數(shù)。簡(jiǎn)單來說,概率是已知模型和參數(shù),推數(shù)據(jù)。統(tǒng)計(jì)是已知數(shù)據(jù),推模型和參數(shù)。

最大似然估計(jì)

最大似然估計(jì)是一種用來推測(cè)參數(shù)的方法,屬于統(tǒng)計(jì)領(lǐng)域的問題。
它利用已知的樣本結(jié)果信息,反推使這個(gè)結(jié)果出現(xiàn)可能性最大的模型參數(shù)值,是一種概率意義下的參數(shù)估計(jì)。

例子

假設(shè)有一種特殊的硬幣,拋這種硬幣出現(xiàn)的正反面并不相等,求它正面出現(xiàn)的概率(\theta)是多少?


這是一個(gè)統(tǒng)計(jì)問題,解決統(tǒng)計(jì)問題需要數(shù)據(jù)。于是我們拿這枚硬幣拋了10次,得到的數(shù)據(jù)x_0是:反正正正正反正正正反。我們相求的正面概率\theta是模型參數(shù),而拋硬幣模型我們可以假設(shè)是二項(xiàng)分布。那么出現(xiàn)實(shí)驗(yàn)結(jié)果x_0的似然函數(shù)是多少呢?

f(x_0,\theta)=(1-\theta)\times \theta \times \theta \times \theta \times \theta \times (1 - \theta ) \times \theta \times \theta \times \theta \times (1 - \theta ) = \theta^7(1-\theta)^3 = f(\theta)

所謂最大似然估計(jì),就是最大化這個(gè)關(guān)于\theta的函數(shù),于是,我們畫出f(\theta)的圖像:

在這里插入圖片描述

可以看出,在\theta=0.7時(shí),f(\theta)取得最大值。

這樣,我們已經(jīng)完成了對(duì)\theta的最大似然估計(jì)。即,拋10次硬幣,發(fā)現(xiàn)7次硬幣正面朝上,最大似然估計(jì)認(rèn)為正面朝上的概率是0.7。

更新記錄

  • 2021-05-16 新增協(xié)方差和協(xié)方差矩陣。

參考

  1. 微專業(yè)人工智能機(jī)器學(xué)習(xí)數(shù)學(xué)高等數(shù)學(xué)概率論統(tǒng)計(jì)學(xué)基礎(chǔ)進(jìn)階課程(完整版)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容