1.分類VS回歸

Classification VS Regression

????????分類模型VS回歸模型，最根本的不同：前者是預(yù)測一個標(biāo)簽（類型、類別）；后者則是預(yù)測一個量。
????????換一個角度來看，分類模型輸出的預(yù)測值是離散值；而回歸模型輸出的預(yù)測值則是連續(xù)值。也就是說輸入一個樣本給模型，回歸模型給出的預(yù)測結(jié)果是在某個值域（一般是實數(shù)域或其子集）上的任意值；而分類模型則是給出特定的某幾個離散值之一。

2.貝葉斯定理

貝葉斯公式如下：
$p(A|B)=\frac{P(B|A)P(A)}{P(B)}$
????????用語言解釋就是：在 B 出現(xiàn)的前提下 A 出現(xiàn)的概率，等于 A 和 B 都出現(xiàn)的概率除以 B 出現(xiàn)的概率。
一般化的貝葉斯公式
????????更一般化的情況，假設(shè)事件 $A$ 本身又包含多種可能性，即 $A$ 是一個集合： $A=\begin{Bmatrix}A_1,A_2,...,A_n\end{Bmatrix}$ ，那么對于集合中任意的 $A_i$ ，貝葉斯定理可用下式表示：
$P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum_jP(B|A_j)P(A_j)}$
連續(xù)概率的貝葉斯定理的形式為（下面所說的A和B對應(yīng)之前貝葉斯公式中的A與B）：
$f(x|y)=\frac{f(y|x)f(x)}{\int_{-\infty}^\infty f(y|x)f(x)dx}$
????????其中， $f(x|y)$ 是給定 $B=y$ 時， $A$ 的后驗分布； $f(x)$ 則是A的先驗分布概率函數(shù)。
????????為了方便起見，這里的 f 在這些專有名詞中代表不同的函數(shù)。

3.樸素貝葉斯分類器（Na?ve Bayes Classifier）

????????“樸素貝葉斯”（Na?ve Bayes）既可以是一種算法——樸素貝葉斯算法，也可以是一種模型——樸素貝葉斯分類模型（分類器）。

樸素貝葉斯算法

????????首先講作為算法的 Na?ve Bayes，樸素貝葉斯算法可以直接利用貝葉斯定理來實現(xiàn)。先來看簡潔版的貝葉斯定理：
$p(A|B)=\frac{P(B|A)P(A)}{P(B)}$
????????在之前的幾個例子中，為了便于理解，當(dāng) B 作為 A 的條件出現(xiàn)時，我們假定它總共只有一個特征。但在實際應(yīng)用中，很少有一件事只受一個特征影響的情況，往往影響一件事的因素有多個。假設(shè)，影響 $B$ 的因素有 $n$ 個，分別是 $b_1,b_2,...,b_n$ 。
????????則 $P(A|B)$ 可以寫為：
$P(A|b_1,b_2,...,B_n)=\frac{P(A)P(b_1,b_2,...,b_n|A)}{P(b_1,b_2,...,b_n)}$
???????? $A$ 的先驗概率 $P(A)$ 和多個因素的聯(lián)合概率 $P(b_1,b_2,...,b_n)$ 都是可以單獨計算的，與 $A$ 和 $b_i$ 之間的關(guān)系無關(guān)，因此這兩項都可以被看作常數(shù)。
????????對于求解 $P(A|b_1,b_2,...,b_n)$ 在，最關(guān)鍵的是 $P(b_1,b_2,...,b_n|A)$ 。根據(jù)鏈?zhǔn)椒▌t可得：
$P(b_1,b_2,...,b_n|A)=P(b_1|A)P(b_2|A,b_1)P(b_3|A,b_1,b_2)\cdots P(b_n|A,b_1,b_2,...,b_n)$
????????上面的求解過程，看起來好復(fù)雜，但是，如果從 $b_1$ 到 $b_n$ 這些特征之間，在概率分布上是條件獨立的，也就是說每個特征 $b_i$ 與其他特征都不相關(guān)。
????????那么，當(dāng) $i\neq j$ 時，有 $P(b_i|A,b_j)=P(b_i|A)$ ——無關(guān)條件被排除到條件概率之外。因此，當(dāng) $b_1,b_2,...,b_n$ 中每個特征與其他 $n-1$ 個特征都不相關(guān)時，就有：
$P(A|b_1,b_2,...b_n)=\frac{1}{z}P(A)\prod_{i=1}^nP(b_i|A)$
????????注意此處的z對應(yīng) $P(b_1,b_2,...,b_n)$ 。

一款極簡單的樸素貝葉斯分類器

????????上式中的 $b_1$ 到 $b_n$ 是特征（Feature），而 $A$ 則是最終的類別（Class），所以，換一個寫法：
$P(C|F_1,F_2,...,F_n)=\frac{1}{z}P(C)\prod_{i=1}^nP(F_i|C)$
????????這個公式也就是我們的樸素貝葉斯分類器的模型函數(shù)！
????????它用來做預(yù)測時是這樣的：

有一個樸素貝葉斯分類模型（器），它能夠區(qū)分出 $k$ 個類 $(c_1,c_2,...,c_k)$ ，用來分類的特征有 $n$ 個： $(F_1,F_2,...,F_n)$ 。
現(xiàn)在有個樣本s，我們要用NB分類器對它做預(yù)測，則需要先提取出這個樣本的所有特征值 $F_1$ 和 $F_2$ ，將其帶入到下式中進行 $k$ 次運算：
$P(C=c_j)\prod_{i=1}^nP(F_i=f_i|C=c_j)$
然后比較這 $k$ 次的結(jié)果，選出使得運算結(jié)果達到最大值的那個 $c_j(j=1,2,...,k)$ ——這個 $c_j$ 對應(yīng)的類別就是預(yù)測值。
????????假設(shè)我們當(dāng)前有一個模型，總共只有兩個類別： $c_1$ 和 $c_2$ ；有三個Feature： $F_1$ ， $F_2$ 和 $F_3$ 。 $F_1$ 有兩種可能性取值： $f_{11}$ 和 $f_{12}$ ； $F_2$ 有三種可能性取值： $f_{21}$ 、 $f_{22}$ 、 $f_{23}$ ； $F_3$ 也有兩種可能性取值： $f_{31}$ 、 $f_{32}$ 。
????????那么對于這個模型，我們要做的就是通過訓(xùn)練過程，獲得下面這些值：
$P(C=c_1)P(C=c_2)P(F_1=f_{11}|C=c_1)P(F_1=f_{12}|C=c_1)$
$P(F_2=f_{21}|C=c_1)P(F_2=f_{22}|C=c_1)P(F_2=f_{23}|C=c_1)$
$P(F_3=f_{31}|C=c_1)P(F_3=f_{32}|C=c_1)P(F_1=f_{11}|C=c_2)$
$P(F_1=f_{12}|C=c_2)P(F_2=f_{21}|C=c_2)P(F_2=f_{22}|C=c_2)$
$P(F_2=f_{23}|C=c_2)P(F_3=f_{31}|C=c_2)P(F_3=f_{32}|C=c_2)$
????????把這些概率值都算出來以后，就可以用來做預(yù)測了。
????????比如我們有一個需要預(yù)測的樣本 X，它的特征值分別是 $f_{11}$ 、 $f_{22}$ 、 $f_{31}$ ，那么
樣本 $X$ 被分為 $c_1$ 的概率是：
$P(C=c_1|x)=P(c=c_1|F_1=f_{11},F_2=f_{22},F_2=f_{31})$
$\alpha P(C=c_1)P(F_1=f_{11}|C=c_1)P(F_2=f_{22}|C=c_1)P(F_3=f_{31}|C=c_1)$
樣本 $X$ 被分為 $c_2$ 的概率是：
$P(C=c_2|x)=P(c=c_2|F_1=f_{11},F_2=f_{22},F_2=f_{31})$
$\alpha P(C=c_2)P(F_1=f_{11}|C=c_2)P(F_2=f_{22}|C=c_2)P(F_3=f_{31}|C=c_2)$
????????兩者都算出來以后，只需要對比 $P(C=c_1|x)$ 和 $P(C=c_2|x)$ 誰更大，那么這個樣本的預(yù)測值就是對應(yīng)類別。