Machine Learning (4)

  1. 貝葉斯公式推導(dǎo),樸素貝葉斯公式
  2. 學(xué)習(xí)先驗(yàn)概率
  3. 學(xué)習(xí)后驗(yàn)概率
  4. LR 和 Linear Regression 之間的區(qū)別與聯(lián)系
  5. 推導(dǎo) sigmoid function 公式

一、從回歸到分類

一般來(lái)說(shuō),回歸模型(Regression)的輸出都是連續(xù)的實(shí)值,其輸出范圍理論上可以是整個(gè)實(shí)數(shù)集。

f(x) = w^Tx + b

但也存在一些情況,其結(jié)果只能在一些范圍內(nèi)取得,比如判斷一朵花屬于哪一個(gè)品種,判斷一張圖片中的動(dòng)物是 ??還是 ??,對(duì)于這樣一些任務(wù),就屬于分類任務(wù)。跟回歸模型輸出值是連續(xù)的實(shí)數(shù)值不同,分類模型的任務(wù)是根據(jù)一個(gè)輸入樣本,輸出其所屬的類別。

大多數(shù)情況下,每一條輸入樣本都只對(duì)應(yīng)一個(gè)類別。不過(guò),對(duì)應(yīng)多個(gè)類別的情況也挺常見(jiàn),這里不做展開(kāi)來(lái)。

分類是監(jiān)督學(xué)習(xí)的一個(gè)核心問(wèn)題,在監(jiān)督學(xué)習(xí)中,當(dāng)輸出變量 Y 取有限個(gè)離散值時(shí),預(yù)測(cè)問(wèn)題便成為分類問(wèn)題。

二、0-1 分類問(wèn)題

0-1 分類,也被稱為 「二分類」,是最基本的分類問(wèn)題。由于其分類 Label 只包含有兩個(gè)類別,即 y \in \left \{ 0, 1 \right \},所以我們可以假設(shè)分類結(jié)果y 服從伯努利分布。

線性分類按輸出值的性質(zhì)可以分為:
硬輸出:感知機(jī)(+1/-1)、線性判別分析
軟輸出:概率判別模型(LR)、概率生成模型(Naive Bayes)

三、樸素貝葉斯分類算法

樸素貝葉斯算法是基于「貝葉斯定理」與特征「條件獨(dú)立性假設(shè)」的分類方法。對(duì)于給定的訓(xùn)練數(shù)據(jù)集,首先基于特征條件獨(dú)立性假設(shè)學(xué)習(xí)輸入和輸出的聯(lián)合概率分布, 然后基于此模型,對(duì)于給定的輸入 x ,利用貝葉斯定理求出后驗(yàn)概率最大的輸出 y。 在學(xué)習(xí)樸素貝葉斯分類方法之前,先來(lái)熟悉一下概率論的基礎(chǔ)知識(shí)。

3.1 條件概率

所謂條件概率,就是指在事件 B 發(fā)生的情況下,事件 A 發(fā)生的概率,表示為 p(A|B)。

Let B be an event with non-zero probability. The conditional probability of any event A given B is defined as:

p(A|B) = \frac{p(A \cap B)}{p(B)}

因此,可得

p(A \cap B) = p(A|B) \cdot p(B)

同理,

p(A \cap B) = p(B|A) \cdot p(A)

注意:p(A \cap B) \iff p(AB) \iff p(A,B) 均表示一個(gè)意思,只是寫法不一樣而已。

3.2 全概率公式:

待補(bǔ)充。

3.3 貝葉斯公式

由條件概率公式,

p(A \cap B) = p(A|B) \cdot p(B) \\ p(A \cap B) = p(B|A) \cdot p(A)

可得

p(A|B) \cdot p(B) = p(B|A) \cdot p(A)

轉(zhuǎn)換一下,便得到了貝葉斯公式:

p(A|B) = \frac{p(B|A)p(A)}{p(B)}

P(A)稱為"先驗(yàn)概率"(Prior probability),即在B事件發(fā)生之前,我們對(duì)A事件概率的一個(gè)判斷。

P(A|B)稱為"后驗(yàn)概率"(Posterior probability),即在B事件發(fā)生之后,我們對(duì)A事件概率的重新評(píng)估。

P(B|A)/P(B) 稱為"可能性函數(shù)"(Likelyhood),這是一個(gè)調(diào)整因子,使得預(yù)估概率更接近真實(shí)概率。

3.4 Naive Bayes 算法

在開(kāi)始樸素貝葉斯分類算法之前,先理一下分類的思路: 給定一個(gè)包含 m 個(gè)樣本的訓(xùn)練集數(shù)據(jù) (x^1, y^1)...(x^m, y^m),

p(y|x) = \frac{p(x|y)p(y)}{p(x)}

樸素貝葉斯算法通過(guò)訓(xùn)練數(shù)據(jù)集學(xué)習(xí)聯(lián)合概率分布 p(X, Y)。具體地,學(xué)習(xí)以下先驗(yàn)概率分布及條件概率分布。

先驗(yàn)概率分布:p(Y=C_k), k = 1, 2, 3,...,k

條件概率分布:p(X=x | Y=C_k) = p(X=x | Y=C_k), k = 1, 2, 3,...,k

于是學(xué)習(xí)到聯(lián)合概率分布 p(X, Y) =p(X|Y)p(Y).

樸素貝葉斯算法利用貝葉斯公式與學(xué)習(xí)到的聯(lián)合概率模型進(jìn)行分類預(yù)測(cè):

p(Y|X) = \frac{p(X,Y)}{p(X)} = \frac{p(X|Y)p(Y)}{p(X)}

將輸入 x 分到后驗(yàn)概率最大的類 y.

四、Logistic Regression

Logistic Regression 屬于判別式模型,該類模型直接對(duì)條件概率 p(Y|X) 建模,采用極大似然估計(jì)(MLE)來(lái)進(jìn)行參數(shù)估計(jì)。

線性回歸 \to 激活函數(shù) \to 線性分類

w^Tx \to f(*) \to [0, 1]

五、關(guān)于 Logistic Regression 中的 sigmoid函數(shù) ?

f(z) = \frac{1}{ 1 + e^{-z}}

并非所有 0~1 之間的數(shù)都可以稱為概率。

廣義線性模型(GLM)最大熵模型(ME)

為什么在 Logistic Regression 中可以用 sigmoid函數(shù) ?

為什么在 Logistic Regression 中要用 sigmoid 函數(shù) ?

指數(shù)族分布

若概率分布滿足 p(y;\eta) = b(y)exp(\eta^TT(y) - a(\eta)),我們就稱之為指數(shù)族分布。

很多常見(jiàn)的概率分布都是指數(shù)族分布的特定形式,如伯努利分布、高斯分布、多項(xiàng)分布、柏松分布等。

GLM 推導(dǎo) Linear Regression

GLM 推導(dǎo) Logistic Regression
伯努利分布的指數(shù)族形式
伯努利分布就是我們常見(jiàn)的 0-1 分布,即它的隨機(jī)變量只取 0 或者 1。

五、 LR 和 Linear Regression 之間的區(qū)別與聯(lián)系
區(qū)別:
1.Logistic Regression 主要用于分類任務(wù),而 Linear Regression 屬于回歸模型

聯(lián)系:
1.Logistic Regression 和 Linear Regression 都是廣義線性模型(GLM)的一種特殊形式
2.Logistic Regression 和 Linear Regression 對(duì)數(shù)據(jù)對(duì)假設(shè)不一樣:
Linear Regression 假設(shè) y|x; \theta \sim N(\mu, \sigma^2) ;
Logistic Regression 假設(shè) y|x; \theta \sim Bernoulli(\phi)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容