- 貝葉斯公式推導(dǎo),樸素貝葉斯公式
- 學(xué)習(xí)先驗(yàn)概率
- 學(xué)習(xí)后驗(yàn)概率
- LR 和 Linear Regression 之間的區(qū)別與聯(lián)系
- 推導(dǎo) sigmoid function 公式
一、從回歸到分類
一般來(lái)說(shuō),回歸模型(Regression)的輸出都是連續(xù)的實(shí)值,其輸出范圍理論上可以是整個(gè)實(shí)數(shù)集。
但也存在一些情況,其結(jié)果只能在一些范圍內(nèi)取得,比如判斷一朵花屬于哪一個(gè)品種,判斷一張圖片中的動(dòng)物是 ??還是 ??,對(duì)于這樣一些任務(wù),就屬于分類任務(wù)。跟回歸模型輸出值是連續(xù)的實(shí)數(shù)值不同,分類模型的任務(wù)是根據(jù)一個(gè)輸入樣本,輸出其所屬的類別。
大多數(shù)情況下,每一條輸入樣本都只對(duì)應(yīng)一個(gè)類別。不過(guò),對(duì)應(yīng)多個(gè)類別的情況也挺常見(jiàn),這里不做展開(kāi)來(lái)。
分類是監(jiān)督學(xué)習(xí)的一個(gè)核心問(wèn)題,在監(jiān)督學(xué)習(xí)中,當(dāng)輸出變量 取有限個(gè)離散值時(shí),預(yù)測(cè)問(wèn)題便成為分類問(wèn)題。
二、 分類問(wèn)題
分類,也被稱為 「二分類」,是最基本的分類問(wèn)題。由于其分類 Label 只包含有兩個(gè)類別,即
,所以我們可以假設(shè)分類結(jié)果
服從伯努利分布。
線性分類按輸出值的性質(zhì)可以分為:
硬輸出:感知機(jī)(+1/-1)、線性判別分析
軟輸出:概率判別模型(LR)、概率生成模型(Naive Bayes)
三、樸素貝葉斯分類算法
樸素貝葉斯算法是基于「貝葉斯定理」與特征「條件獨(dú)立性假設(shè)」的分類方法。對(duì)于給定的訓(xùn)練數(shù)據(jù)集,首先基于特征條件獨(dú)立性假設(shè)學(xué)習(xí)輸入和輸出的聯(lián)合概率分布, 然后基于此模型,對(duì)于給定的輸入 ,利用貝葉斯定理求出后驗(yàn)概率最大的輸出
。 在學(xué)習(xí)樸素貝葉斯分類方法之前,先來(lái)熟悉一下概率論的基礎(chǔ)知識(shí)。
3.1 條件概率
所謂條件概率,就是指在事件 B 發(fā)生的情況下,事件 A 發(fā)生的概率,表示為 。

Let B be an event with non-zero probability. The conditional probability of any event A given B is defined as:
因此,可得
同理,
注意: 均表示一個(gè)意思,只是寫法不一樣而已。
3.2 全概率公式:
待補(bǔ)充。
3.3 貝葉斯公式
由條件概率公式,
可得
轉(zhuǎn)換一下,便得到了貝葉斯公式:
稱為"先驗(yàn)概率"(Prior probability),即在B事件發(fā)生之前,我們對(duì)A事件概率的一個(gè)判斷。
稱為"后驗(yàn)概率"(Posterior probability),即在B事件發(fā)生之后,我們對(duì)A事件概率的重新評(píng)估。
稱為"可能性函數(shù)"(Likelyhood),這是一個(gè)調(diào)整因子,使得預(yù)估概率更接近真實(shí)概率。
3.4 Naive Bayes 算法
在開(kāi)始樸素貝葉斯分類算法之前,先理一下分類的思路: 給定一個(gè)包含 m 個(gè)樣本的訓(xùn)練集數(shù)據(jù) ,
樸素貝葉斯算法通過(guò)訓(xùn)練數(shù)據(jù)集學(xué)習(xí)聯(lián)合概率分布 。具體地,學(xué)習(xí)以下先驗(yàn)概率分布及條件概率分布。
先驗(yàn)概率分布:
條件概率分布:
于是學(xué)習(xí)到聯(lián)合概率分布 .
樸素貝葉斯算法利用貝葉斯公式與學(xué)習(xí)到的聯(lián)合概率模型進(jìn)行分類預(yù)測(cè):
將輸入 分到后驗(yàn)概率最大的類
.
四、Logistic Regression
Logistic Regression 屬于判別式模型,該類模型直接對(duì)條件概率 建模,采用極大似然估計(jì)(MLE)來(lái)進(jìn)行參數(shù)估計(jì)。
線性回歸 激活函數(shù)
線性分類
五、關(guān)于 Logistic Regression 中的 sigmoid函數(shù) ?
并非所有 0~1 之間的數(shù)都可以稱為概率。
廣義線性模型(GLM)最大熵模型(ME)
為什么在 Logistic Regression 中可以用 sigmoid函數(shù) ?
為什么在 Logistic Regression 中要用 sigmoid 函數(shù) ?
指數(shù)族分布
若概率分布滿足 ,我們就稱之為指數(shù)族分布。
很多常見(jiàn)的概率分布都是指數(shù)族分布的特定形式,如伯努利分布、高斯分布、多項(xiàng)分布、柏松分布等。
GLM 推導(dǎo) Linear Regression
GLM 推導(dǎo) Logistic Regression
伯努利分布的指數(shù)族形式
伯努利分布就是我們常見(jiàn)的 0-1 分布,即它的隨機(jī)變量只取 0 或者 1。
五、 LR 和 Linear Regression 之間的區(qū)別與聯(lián)系
區(qū)別:
1.Logistic Regression 主要用于分類任務(wù),而 Linear Regression 屬于回歸模型
聯(lián)系:
1.Logistic Regression 和 Linear Regression 都是廣義線性模型(GLM)的一種特殊形式
2.Logistic Regression 和 Linear Regression 對(duì)數(shù)據(jù)對(duì)假設(shè)不一樣:
Linear Regression 假設(shè) ;
Logistic Regression 假設(shè)