原文地址:http://happykai.cn/2018/06/07/MIT-PatternRecognition2/ ，簡書沒有系統(tǒng)性的目錄之分，容易使知識變成一盤散沙，因此今后將逐步轉(zhuǎn)移至個人博客http://happykai.cn，在個人博客中系統(tǒng)地搭建知識體系。
手機版不支持mathjax，所以公式亂碼，如果您使用手機閱讀，請到個人博客。

主要是概率論，如果你這部分基礎(chǔ)牢固，可以跳過，直接看理論部分。

概率質(zhì)量函數(shù)

概率質(zhì)量函數(shù)（Probability Mass Function）是針對離散值而言的，通常用大寫字母P表示。假設(shè)某個事

件 $\omega_{1}$ 發(fā)生的概率為 $P(\omega_{1})$ ,某個事件 $\omega_{2}$ 發(fā)生的概率為 $P(\omega_{2})$ ,兩事件相互獨立，則 $P(\omega_{1})+P(\omega_{2})=1$ 。

概率密度函數(shù)

概率密度函數(shù)（Probability Desity Function）是針對連續(xù)值而言的，通常用小寫字母 $p$ 表示。概率密度函數(shù)的在正無窮到負(fù)無窮上到積分為1，在某一個區(qū)間中的概率用在該區(qū)間中的積分來表示。

用數(shù)學(xué)語言描述就是：

$(1)p(\overrightarrow {x}) \geq 0, \forall\ \overrightarrow {x}\in R^n$
$(2)\int p(\overrightarrow {x})\ d\ \overrightarrow x=1$

NOTE：

$\overrightarrow x$ 是一個列向量

任何滿足以上兩個條件的函數(shù)都叫在n為歐幾里得空間（Euclidean Space）上的概率密度函數(shù)。

比如：

高斯密度函數(shù)（Gaussian Density Function or Density Function for Gaussian Distribution）

高斯密度函數(shù)的定義為：

$p(\overrightarrow x)=\dfrac{1}{(\sqrt{2\pi})^n|\Sigma|^{1/2}}exp\left\{-\dfrac{1}{2}(\overrightarrow x-\overrightarrow \mu)^T\Sigma^{-1}(\overrightarrow x - \overrightarrow \mu)\right\}$
NOTE：

可能發(fā)現(xiàn)上面那個公式和平時見的公式長得不太一樣，其實它是從線性代數(shù)的角度寫的。
公式中的 $|\Sigma|$ 代表Determinant of sigma, 也就是 $\Sigma$ 的行列式，將nxn的矩陣映射成一個標(biāo)量（既然提到了行列式并且我也有些遺忘，所以一會兒在文末附錄里整理一下它的概念）。 $\Sigma$ 是什么呢？它叫Variance-Covariance Matrix，也叫Dispersion Matrix，是一個nxn的矩陣，它的逆 $\Sigma^{-1}$ 也是一個nxn的矩陣。（這里協(xié)方差矩陣和矩陣的逆還有矩陣的轉(zhuǎn)置，也要在附錄里溫習(xí)）ok，回歸正題，這個determinant of sigma可能是0也可能是負(fù)數(shù)，但是如果是負(fù)數(shù)，1/2次方就會很難計算，因為它會得到一個非常復(fù)雜的數(shù)，而我們的概率密度函數(shù)的第一個條件就是 $p(\overrightarrow x)\geq0$ ，所以determinant ofsigma必須大于0，因為即使是等于0，1/0也無法計算。
$exp$ 代表e的某次方。
$\overrightarrow x$ ：一個 $n$ 維的向量
$\overrightarrow \mu$ ：均值向量，代表分布的均值，也是一個 $n$ 維的向量（mean vector同樣在附錄里溫習(xí)）
因為 $\overrightarrow x$ 和 $\overrightarrow \mu$ 都是n維的列向量，所以 $(\overrightarrow x-\overrightarrow \mu)$ 也是一個n維的列向量，即nx1的矩陣，所以 $(\overrightarrow x-\overrightarrow \mu)^T$ 是一個n維的行向量，即1xn的矩陣
所以 $(\overrightarrow x-\overrightarrow \mu)^T\Sigma^{-1}(\overrightarrow x - \overrightarrow \mu)$ 是一個標(biāo)量，所以這一項是e的任何大于等于0的次方。

看完這里，請跳到附錄，補充Variance-Covariance Matrix和Positive-Definite Matrix 的概念，至于行列式（Determinant）和矩陣的逆以及矩陣的轉(zhuǎn)置，看不看都行。

先驗概率

先驗概率（Prior Probability）是指根據(jù)已有情況提前知道的概率，比如已知有一箱紅黑混合的小球，其中紅色小球共有100顆，黑色小球共有200顆，則紅色小球的先驗概率為 $P(red) = 1/3$ , 黑色小球的鮮艷概率為 $P(black) = 2/3$ 。

條件概率

假設(shè)將上述紅黑混合的小球們放在兩個箱子中，即A箱放20個紅色小球，100個黑色小球，B箱放80個紅色小球，100個黑色小球，則從A中取到紅色小球的概率是多少？這就是條件概率。

$P(red|A) = P(red \& A) / P(A) = (20 / 300) / (120 / 300) = 1/6$

那么，紅色里面來自A的概率是多少呢？

$P(A|red) = P(A \& red) / P(red) = (20 / 300) / (100 / 300) = 1 / 5$

附錄

Variance-Covariance Matrix

首先需要知道Variance和Covariance的定義。

Variance

假設(shè)有n個observations： $x_1, x_2, x_3, ..., x_n \in R$

它們的平均數(shù) $\bar x$ 等于:
$\bar x=\dfrac {1}{n}\sum_{i=1}^{n}x_i$
它們的方差Variance等于
$Variance=\dfrac {1}{n}\sum_{i=1}^{n}(x_i-\bar x)^2$

一些書也會寫為： $Variance=\dfrac {1}{n-1}\sum_{i=1}^{n}(x_i-\bar x)^2$ ，這實際上是unbias estimate for Variance of the population,與1/n在value上有些差別，這是統(tǒng)計學(xué)中比較復(fù)雜的一個概念。（老師沒有做詳細介紹，說可以課后去查，而我也不打算深入此概念，所以和老師一樣，variance就follow第一種寫法。）

Covariance

為了闡釋協(xié)方差Covariance，我們需要兩個變量(x, y)，假設(shè)x是身高，單位是cm，y是體重，單位是kg。
假設(shè)有n個observations：
$(x_1,y_1),(x_2, y_2), ..., (x_n, y_n)$
你要做的是plot these points，這里我給出三個這樣的plots，灰色區(qū)域是一些列點：

plot the points

圖（1）中，x增長，y隨x也增長，所以我們用一些大于0的數(shù)（quantity）來代表這個關(guān)系；
圖（2）中，x增長，y隨x減小，我們用一些小于0的數(shù)（quantity）來代表這個關(guān)系；
圖（3）中，x增長，y在某一個范圍內(nèi)波動，所以我們用一些非常接近0的數(shù)（quantity）來代表這個關(guān)系。

那么這個數(shù)（quantity）到底是什么呢？

對于所有的x和y，我們找到它們的均值，然后將其作為新坐標(biāo)軸的原點：

new axis

那么所有點的x，y值都會變化，把這些新的值乘起來求均值，會得到什么呢？

比如圖（1），新坐標(biāo)系第一象限的x，y都大于0，乘積也會大于0，第三象限x，y都小于0，乘積也會大于0，第二和第四象限乘積會小于0，但是一三象限的點數(shù)量明顯大于二四象限的點，所以我們計算
$\dfrac{1}{n}\sum_{i=1}^n(x_i - \bar x)(y_i - \bar y)$
會得到一個大于0的值。

同理圖（2）會得到一個小于0的值，圖（3）會得到一個約等于0的值。

這就是x和y的協(xié)方差Covariance
$Cov(x,y)=\dfrac{1}{n}\sum_{i=1}^n(x_i - \bar x)(y_i - \bar y)$
可以看出， $Cov(x,x)$ 就是variance。

Variance-Covariance Matrix

在模式識別中，我們把這一系列變量稱作features，如果兩兩組合，會得到多少對呢？ $n^2$ 對。
如果n個features是
$x_1, x_2, x_3, \dots,x_n$
則這n個features的Variance-Covariance matrix為：
$\Sigma=\begin{bmatrix} {Cov(x_1,x_1)}&{Cov(x_1, x_2)}&{\cdots}&{Cov(x_1, x_n)}\\ {Cov(x_2,x_1)}&{Cov(x_2,x_2)}&{\cdots}&{Cov(x_2,x_n)}\\ {\vdots}&{\vdots}&{\ddots}&{\vdots}\\ {Cov(x_n,x_1)}&{Cov(x_n,x_2)}&{\cdots}&{Cov(x_n,x_n)}\\ \end{bmatrix}$
這是一個對稱矩陣symmetric matrix，也是一個正定矩陣Positive-definite matrix，什么是正定矩陣呢，往下看。

Positive-definit matrix

大家應(yīng)該都知道“歐幾里得”距離是什么吧，假設(shè)我們有一個列向量 $\overrightarrow x=[x_1, x_2, \dots,x_n]$ 和一個列向量 $\overrightarrow y=[y_1, y_2, \dots, y_3]$ ,則x和y的歐幾里得距離為 $d(\overrightarrow x, \overrightarrow y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2}$ 。

現(xiàn)在假設(shè)x代表第一個人的feature，y代表第二個人的feature，每個列向量只有兩列，分別代表身高和體重。

x的身高和體重分別為160cm和70kg，y的身高和體重分別為158cm和73kg，現(xiàn)在想衡量x和y的距離，如果用上面的歐式距離，就會有些問題，為什么這么說呢？

$d(\overrightarrow x, \overrightarrow y)=\sqrt{(160-158)^2+(70-73)^2}=\sqrt{13}$

如果同樣是這兩個人，把身高的單位換成mm，同樣的方式計算x和有的距離：
$d(\overrightarrow x, \overrightarrow y)=\sqrt{(1600-1580)^2+(70-73)^2}=\sqrt{409}$
這是我們不期望得到的結(jié)果，相同的兩個人，衡量他們的距離，應(yīng)該無論如何都始終一樣，而非僅僅換了單位就出現(xiàn)不同的結(jié)果。

所以歐式距離往往是not useful的。

現(xiàn)在讓我們移除公式的根號：
$d^2(\overrightarrow x, \overrightarrow y)=(x_1-y_1, x_2-y_2)\left(\begin{array}{cccc} 1 & 0 \\ 0 & 1\\ \end{array}\right) \left(\begin{array}{cccc} x_1-y_1 \\ x_2-y_2 \\ \end{array}\right)$
這種寫法與 $d(\overrightarrow x, \overrightarrow y)=\sqrt{\sum_{i=1}^2(x_i-y_i)^2}$ 是等價的，一個矩陣與單位矩陣（identity matrix）相乘是不變的。

現(xiàn)在我們對中間對單位矩陣做一些泛化，把它改成 $\left(\begin{array}{cccc} w_1 & 0 \\ 0 & w_2\\ \end{array}\right)$ ，則相應(yīng)的距離公式變?yōu)?span id="u0z1t8os" class="math-inline">d(\overrightarrow x, \overrightarrow y)=\sqrt{\sum_{i=1}^2w_i(x_i-y_i)^2}，這里的 $w_i$ 取決于單位，這樣就能解決我們的問題：當(dāng)單位發(fā)生改變時，相同的兩個人距離不發(fā)生改變。這種定義下，如果 $w_1$ 和 $w_2$ 嚴(yán)格大于等于0，那么最后的距離就是大于或者等于0的

你還可以繼續(xù)泛化，把單位矩陣改成 $\left(\begin{array}{cccc} w_{11} & w_{12} \\ w_{21} & w_{22} \\ \end{array}\right)$ ，在這種定義下，w的值該取多少距離才會大于0呢？
滿足這樣的w有很多，比如隨便舉個例子：
$(x_1-y_1, x_2-y_2)\left(\begin{array}{cccc} 2 & -1 \\ -1 & 2 \\ \end{array}\right)\left(\begin{array}{cccc} x_1-y_1 \\ x_2-y_2\\ \end{array}\right) > 0, \ if(x_1 \neq y_1)\ or\ (x_2 \neq y_2)$

這樣我們的Positive-definite matrix就有了定義：

$A_{n*n}$ is said to be POSITIVE DEFINITE if $a^TAa > 0, \ \forall a \neq \left(\begin{array}{cccc} 0 \\ 0 \\ 0 \\ . \\ . \\ . \\ 0 \end{array}\right)_{n*1}$

如果：

$a^TAa \geq 0, \ \forall a.$ $A_{n*n}$ is said to be POSITIVE SEMI DEFINITE, in some books, this is also written as NON NEGATIVE DEFINITE.

在線性代數(shù)中，很容易找到positive-definite matrix的定義，那么我們?yōu)槭裁葱枰粋€這樣的矩陣呢？從上面那個“距離”的角度來說，我們需要這樣的矩陣是因為我們要確保距離是大于等于0的，如果x和y是完全一樣的，我們希望其距離為0，否則我們希望一個大于0的數(shù)來表示不同程度，因此我們把距離公式寫成 $a^TAa$ 的矩陣形式。

Variance-Covariance matrix 可以被證明是NON-NEGATIVE DEFINITE的，實際上通常是POSITIVE-DEFINITE的，在正態(tài)分布（高斯密度函數(shù)）下，我們認(rèn)為Variance-Covariance matrix 是POSITIVE-DEFINITE的，這就是我們?yōu)槭裁磿诟咚姑芏群瘮?shù)的分母上把它寫成 $|\Sigma|^{1/2}$ 的原因。如果Variance-Covariance matrix是non-negative definite的，就會有一些properties，比如矩陣的行列式是它的特征值（the determinant of matrix is product of its eigenvalues），所有的特征值都是大于等于0的，如果variance-covariance matrix是positive-definite的，那么所有eigenvalues都是嚴(yán)格大于0的，所以可以把它做分母。

Determinant

在線性代數(shù)里，Determinant是一個可以從方形矩陣中計算出來的值。矩陣的Determinant記做 $det(A)\ or \ detA \ or \ |A|$ 。在幾何學(xué)里，它被視作描述矩陣線性變換的scaling factor。

2x2的矩陣行列式計算方法為：
$|A|=\left|\begin{array}{cccc} a & b \\ c & d \\ \end{array}\right|=ad - bc$
更高階的計算方法到參考文獻的鏈接查看吧，mathjax不好寫了。

Matrix inverse

在線性代數(shù)中，如果一個nxn的方陣A存在一個nxn的方陣B使其滿足
$AB=BA=I_n$
則稱A為可逆矩陣，B是A的逆。 $I_n$ 是nxn的Identity Matrix，也被含糊地稱為Unit Matrix，單位矩陣，對角線是1，其余是0。

Transpose of Matrix

在線性代數(shù)里，矩陣的轉(zhuǎn)置就是行列元素的索引對調(diào)，記做 $A^T$ :
$[A^T]_{ij}=[A]_{ji}$

參考文獻

印度的講的賊好的MOOC
矩陣行列式（Determinant）
矩陣的逆（Inverse）
矩陣的轉(zhuǎn)置

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

貝葉斯決策理論（數(shù)學(xué)部分）

貝葉斯決策理論（數(shù)學(xué)部分）

概率質(zhì)量函數(shù)

概率密度函數(shù)

高斯密度函數(shù)（Gaussian Density Function or Density Function for Gaussian Distribution）

先驗概率

條件概率

附錄

Variance-Covariance Matrix

Variance

Covariance

Variance-Covariance Matrix

Positive-definit matrix

Determinant

Matrix inverse

Transpose of Matrix

參考文獻

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

貝葉斯決策理論（數(shù)學(xué)部分）

概率質(zhì)量函數(shù)

概率密度函數(shù)

高斯密度函數(shù)（Gaussian Density Function or Density Function for Gaussian Distribution）

先驗概率

條件概率

附錄

Variance-Covariance Matrix

Variance

Covariance

Variance-Covariance Matrix

Positive-definit matrix

Determinant

Matrix inverse

Transpose of Matrix

參考文獻

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av