貝葉斯決策理論(數(shù)學(xué)部分)

原文地址:http://happykai.cn/2018/06/07/MIT-PatternRecognition2/ ,簡書沒有系統(tǒng)性的目錄之分,容易使知識變成一盤散沙,因此今后將逐步轉(zhuǎn)移至個人博客http://happykai.cn,在個人博客中系統(tǒng)地搭建知識體系。
手機版不支持mathjax,所以公式亂碼,如果您使用手機閱讀,請到個人博客。

主要是概率論,如果你這部分基礎(chǔ)牢固,可以跳過,直接看理論部分。

概率質(zhì)量函數(shù)

概率質(zhì)量函數(shù)(Probability Mass Function)是針對離散值而言的,通常用大寫字母P表示。假設(shè)某個事

\omega_{1}發(fā)生的概率為P(\omega_{1}),某個事件\omega_{2}發(fā)生的概率為P(\omega_{2}),兩事件相互獨立,則P(\omega_{1})+P(\omega_{2})=1

概率密度函數(shù)

概率密度函數(shù)(Probability Desity Function)是針對連續(xù)值而言的,通常用小寫字母p表示。概率密度函數(shù)的在正無窮到負(fù)無窮上到積分為1,在某一個區(qū)間中的概率用在該區(qū)間中的積分來表示。

用數(shù)學(xué)語言描述就是:

(1)p(\overrightarrow {x}) \geq 0, \forall\ \overrightarrow {x}\in R^n
(2)\int p(\overrightarrow {x})\ d\ \overrightarrow x=1

NOTE

  • \overrightarrow x是一個列向量

任何滿足以上兩個條件的函數(shù)都叫在n為歐幾里得空間(Euclidean Space)上的概率密度函數(shù)。

比如:

高斯密度函數(shù)(Gaussian Density Function or Density Function for Gaussian Distribution)

高斯密度函數(shù)的定義為:

p(\overrightarrow x)=\dfrac{1}{(\sqrt{2\pi})^n|\Sigma|^{1/2}}exp\left\{-\dfrac{1}{2}(\overrightarrow x-\overrightarrow \mu)^T\Sigma^{-1}(\overrightarrow x - \overrightarrow \mu)\right\}
NOTE:

  • 可能發(fā)現(xiàn)上面那個公式和平時見的公式長得不太一樣,其實它是從線性代數(shù)的角度寫的。

  • 公式中的|\Sigma|代表Determinant of sigma, 也就是\Sigma的行列式,將nxn的矩陣映射成一個標(biāo)量(既然提到了行列式并且我也有些遺忘,所以一會兒在文末附錄里整理一下它的概念)。\Sigma是什么呢?它叫Variance-Covariance Matrix, 也叫Dispersion Matrix,是一個nxn的矩陣,它的逆\Sigma^{-1}也是一個nxn的矩陣。(這里協(xié)方差矩陣和矩陣的逆還有矩陣的轉(zhuǎn)置,也要在附錄里溫習(xí))ok,回歸正題,這個determinant of sigma可能是0也可能是負(fù)數(shù),但是如果是負(fù)數(shù),1/2次方就會很難計算,因為它會得到一個非常復(fù)雜的數(shù), 而我們的概率密度函數(shù)的第一個條件就是p(\overrightarrow x)\geq0所以determinant ofsigma必須大于0, 因為即使是等于0,1/0也無法計算。

  • exp代表e的某次方。

  • \overrightarrow x:一個n維的向量

  • \overrightarrow \mu:均值向量,代表分布的均值,也是一個n維的向量(mean vector同樣在附錄里溫習(xí))

  • 因為\overrightarrow x\overrightarrow \mu都是n維的列向量,所以(\overrightarrow x-\overrightarrow \mu)也是一個n維的列向量,即nx1的矩陣,所以(\overrightarrow x-\overrightarrow \mu)^T是一個n維的行向量, 即1xn的矩陣

  • 所以(\overrightarrow x-\overrightarrow \mu)^T\Sigma^{-1}(\overrightarrow x - \overrightarrow \mu)是一個標(biāo)量,所以這一項是e的任何大于等于0的次方。

看完這里,請跳到附錄,補充Variance-Covariance Matrix和Positive-Definite Matrix 的概念,至于行列式(Determinant)和矩陣的逆以及矩陣的轉(zhuǎn)置,看不看都行。

先驗概率

先驗概率(Prior Probability)是指根據(jù)已有情況提前知道的概率,比如已知有一箱紅黑混合的小球,其中紅色小球共有100顆,黑色小球共有200顆,則紅色小球的先驗概率為P(red) = 1/3, 黑色小球的鮮艷概率為P(black) = 2/3。

條件概率

假設(shè)將上述紅黑混合的小球們放在兩個箱子中,即A箱放20個紅色小球,100個黑色小球,B箱放80個紅色小球,100個黑色小球,則從A中取到紅色小球的概率是多少?這就是條件概率。

P(red|A) = P(red \& A) / P(A) = (20 / 300) / (120 / 300) = 1/6

那么,紅色里面來自A的概率是多少呢?

P(A|red) = P(A \& red) / P(red) = (20 / 300) / (100 / 300) = 1 / 5

附錄

Variance-Covariance Matrix

首先需要知道Variance和Covariance的定義。

Variance

假設(shè)有n個observations:x_1, x_2, x_3, ..., x_n \in R

它們的平均數(shù)\bar x等于:
\bar x=\dfrac {1}{n}\sum_{i=1}^{n}x_i
它們的方差Variance等于
Variance=\dfrac {1}{n}\sum_{i=1}^{n}(x_i-\bar x)^2

一些書也會寫為:Variance=\dfrac {1}{n-1}\sum_{i=1}^{n}(x_i-\bar x)^2,這實際上是unbias estimate for Variance of the population,與1/n在value上有些差別,這是統(tǒng)計學(xué)中比較復(fù)雜的一個概念。(老師沒有做詳細介紹,說可以課后去查,而我也不打算深入此概念,所以和老師一樣,variance就follow第一種寫法。)

Covariance

為了闡釋協(xié)方差Covariance,我們需要兩個變量(x, y),假設(shè)x是身高,單位是cm,y是體重,單位是kg。
假設(shè)有n個observations:
(x_1,y_1),(x_2, y_2), ..., (x_n, y_n)
你要做的是plot these points,這里我給出三個這樣的plots,灰色區(qū)域是一些列點:

plot the points

圖(1)中,x增長,y隨x也增長,所以我們用一些大于0的數(shù)(quantity)來代表這個關(guān)系;
圖(2)中,x增長,y隨x減小,我們用一些小于0的數(shù)(quantity)來代表這個關(guān)系;
圖(3)中,x增長,y在某一個范圍內(nèi)波動,所以我們用一些非常接近0的數(shù)(quantity)來代表這個關(guān)系。

那么這個數(shù)(quantity)到底是什么呢?

對于所有的x和y,我們找到它們的均值,然后將其作為新坐標(biāo)軸的原點:


new axis

那么所有點的x,y值都會變化,把這些新的值乘起來求均值,會得到什么呢?

比如圖(1),新坐標(biāo)系第一象限的x,y都大于0,乘積也會大于0,第三象限x,y都小于0,乘積也會大于0,第二和第四象限乘積會小于0,但是一三象限的點數(shù)量明顯大于二四象限的點,所以我們計算
\dfrac{1}{n}\sum_{i=1}^n(x_i - \bar x)(y_i - \bar y)
會得到一個大于0的值。

同理圖(2)會得到一個小于0的值,圖(3)會得到一個約等于0的值。

這就是x和y的協(xié)方差Covariance
Cov(x,y)=\dfrac{1}{n}\sum_{i=1}^n(x_i - \bar x)(y_i - \bar y)
可以看出,Cov(x,x)就是variance。

Variance-Covariance Matrix

在模式識別中,我們把這一系列變量稱作features,如果兩兩組合,會得到多少對呢?n^2對。
如果n個features是
x_1, x_2, x_3, \dots,x_n
則這n個features的Variance-Covariance matrix為:
\Sigma=\begin{bmatrix} {Cov(x_1,x_1)}&{Cov(x_1, x_2)}&{\cdots}&{Cov(x_1, x_n)}\\ {Cov(x_2,x_1)}&{Cov(x_2,x_2)}&{\cdots}&{Cov(x_2,x_n)}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {Cov(x_n,x_1)}&{Cov(x_n,x_2)}&{\cdots}&{Cov(x_n,x_n)}\\ \end{bmatrix}
這是一個對稱矩陣symmetric matrix,也是一個正定矩陣Positive-definite matrix,什么是正定矩陣呢,往下看。

Positive-definit matrix

大家應(yīng)該都知道“歐幾里得”距離是什么吧,假設(shè)我們有一個列向量\overrightarrow x=[x_1, x_2, \dots,x_n]和一個列向量\overrightarrow y=[y_1, y_2, \dots, y_3],則x和y的歐幾里得距離為d(\overrightarrow x, \overrightarrow y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}。

現(xiàn)在假設(shè)x代表第一個人的feature,y代表第二個人的feature,每個列向量只有兩列,分別代表身高和體重。

x的身高和體重分別為160cm和70kg,y的身高和體重分別為158cm和73kg,現(xiàn)在想衡量x和y的距離,如果用上面的歐式距離,就會有些問題,為什么這么說呢?

d(\overrightarrow x, \overrightarrow y)=\sqrt{(160-158)^2+(70-73)^2}=\sqrt{13}

如果同樣是這兩個人,把身高的單位換成mm,同樣的方式計算x和有的距離:
d(\overrightarrow x, \overrightarrow y)=\sqrt{(1600-1580)^2+(70-73)^2}=\sqrt{409}
這是我們不期望得到的結(jié)果,相同的兩個人,衡量他們的距離,應(yīng)該無論如何都始終一樣,而非僅僅換了單位就出現(xiàn)不同的結(jié)果。

所以歐式距離往往是not useful的。

現(xiàn)在讓我們移除公式的根號:
d^2(\overrightarrow x, \overrightarrow y)=(x_1-y_1, x_2-y_2)\left(\begin{array}{cccc} 1 & 0 \\ 0 & 1\\ \end{array}\right) \left(\begin{array}{cccc} x_1-y_1 \\ x_2-y_2 \\ \end{array}\right)
這種寫法與d(\overrightarrow x, \overrightarrow y)=\sqrt{\sum_{i=1}^2(x_i-y_i)^2}是等價的,一個矩陣與單位矩陣(identity matrix)相乘是不變的。

現(xiàn)在我們對中間對單位矩陣做一些泛化,把它改成\left(\begin{array}{cccc} w_1 & 0 \\ 0 & w_2\\ \end{array}\right),則相應(yīng)的距離公式變?yōu)?span id="u0z1t8os" class="math-inline">d(\overrightarrow x, \overrightarrow y)=\sqrt{\sum_{i=1}^2w_i(x_i-y_i)^2},這里的w_i取決于單位,這樣就能解決我們的問題:當(dāng)單位發(fā)生改變時,相同的兩個人距離不發(fā)生改變。這種定義下,如果w_1w_2嚴(yán)格大于等于0,那么最后的距離就是大于或者等于0的

你還可以繼續(xù)泛化,把單位矩陣改成\left(\begin{array}{cccc} w_{11} & w_{12} \\ w_{21} & w_{22} \\ \end{array}\right),在這種定義下,w的值該取多少距離才會大于0呢?
滿足這樣的w有很多,比如隨便舉個例子:
(x_1-y_1, x_2-y_2)\left(\begin{array}{cccc} 2 & -1 \\ -1 & 2 \\ \end{array}\right)\left(\begin{array}{cccc} x_1-y_1 \\ x_2-y_2\\ \end{array}\right) > 0, \ if(x_1 \neq y_1)\ or\ (x_2 \neq y_2)

這樣我們的Positive-definite matrix就有了定義:

A_{n*n} is said to be POSITIVE DEFINITE if a^TAa > 0, \ \forall a \neq \left(\begin{array}{cccc} 0 \\ 0 \\ 0 \\ . \\ . \\ . \\ 0 \end{array}\right)_{n*1}

如果:

a^TAa \geq 0, \ \forall a. A_{n*n} is said to be POSITIVE SEMI DEFINITE, in some books, this is also written as NON NEGATIVE DEFINITE.

在線性代數(shù)中,很容易找到positive-definite matrix的定義,那么我們?yōu)槭裁葱枰粋€這樣的矩陣呢?從上面那個“距離”的角度來說,我們需要這樣的矩陣是因為我們要確保距離是大于等于0的,如果x和y是完全一樣的,我們希望其距離為0,否則我們希望一個大于0的數(shù)來表示不同程度,因此我們把距離公式寫成a^TAa的矩陣形式。

Variance-Covariance matrix 可以被證明是NON-NEGATIVE DEFINITE的,實際上通常是POSITIVE-DEFINITE的,在正態(tài)分布(高斯密度函數(shù))下,我們認(rèn)為Variance-Covariance matrix 是POSITIVE-DEFINITE的,這就是我們?yōu)槭裁磿诟咚姑芏群瘮?shù)的分母上把它寫成|\Sigma|^{1/2}的原因。如果Variance-Covariance matrix是non-negative definite的,就會有一些properties,比如矩陣的行列式是它的特征值(the determinant of matrix is product of its eigenvalues),所有的特征值都是大于等于0的,如果variance-covariance matrix是positive-definite的,那么所有eigenvalues都是嚴(yán)格大于0的,所以可以把它做分母。

Determinant

在線性代數(shù)里,Determinant是一個可以從方形矩陣中計算出來的值。矩陣的Determinant記做det(A)\ or \ detA \ or \ |A|。在幾何學(xué)里,它被視作描述矩陣線性變換的scaling factor。

2x2的矩陣行列式計算方法為:
|A|=\left|\begin{array}{cccc} a & b \\ c & d \\ \end{array}\right|=ad - bc
更高階的計算方法到參考文獻的鏈接查看吧,mathjax不好寫了。

Matrix inverse

在線性代數(shù)中,如果一個nxn的方陣A存在一個nxn的方陣B使其滿足
AB=BA=I_n
則稱A為可逆矩陣,B是A的逆。I_n是nxn的Identity Matrix,也被含糊地稱為Unit Matrix,單位矩陣,對角線是1,其余是0。

Transpose of Matrix

在線性代數(shù)里,矩陣的轉(zhuǎn)置就是行列元素的索引對調(diào),記做A^T:
[A^T]_{ij}=[A]_{ji}

參考文獻

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容