1. 概率分布角度
從概率分布的角度考慮,對(duì)于一堆樣本數(shù)據(jù),每個(gè)均有特征Xi對(duì)應(yīng)分類標(biāo)記yi。
生成模型:學(xué)習(xí)得到聯(lián)合概率分布P(x,y),即特征x和標(biāo)記y共同出現(xiàn)的概率,然后求條件概率分布。能夠?qū)W習(xí)到數(shù)據(jù)生成的機(jī)制。
判別模型:學(xué)習(xí)得到條件概率分布P(y|x),即在特征x出現(xiàn)的情況下標(biāo)記y出現(xiàn)的概率。
數(shù)據(jù)要求:生成模型需要的數(shù)據(jù)量比較大,能夠較好地估計(jì)概率密度;而判別模型對(duì)數(shù)據(jù)樣本量的要求沒(méi)有那么多。
2. 優(yōu)缺點(diǎn)對(duì)比

3. 經(jīng)典算法
3.1 生成模型
以統(tǒng)計(jì)學(xué)和Bayes作為理論基礎(chǔ)
3.1.1樸素貝葉斯:
通過(guò)學(xué)習(xí)先驗(yàn)概率分布,得到聯(lián)合概率分布,然后對(duì)應(yīng)分類時(shí)的后驗(yàn)概率為:
使用極大似然估計(jì)(使用樣本中的數(shù)據(jù)分布來(lái)擬合數(shù)據(jù)的實(shí)際分布概率)得到先驗(yàn)概率。
3.1.2 混合高斯模型:

3.1.3隱馬爾可夫模型 (HMM)
由隱藏的馬爾可夫鏈隨機(jī)生成觀測(cè)序列是生成模型。
HMM是關(guān)于時(shí)序的概率模型,描述由一個(gè)隱藏的馬爾可夫鏈隨機(jī)生成不可觀測(cè)的狀態(tài)隨機(jī)序列,再由各個(gè)狀態(tài)生成一個(gè)觀測(cè)而產(chǎn)生觀測(cè)隨機(jī)序列的過(guò)程。包含三要素:初始狀態(tài)概率向量pie,狀態(tài)轉(zhuǎn)移概率矩陣A,觀測(cè)概率矩陣B。
3.2 判別模型
3.2.1、感知機(jī) (線性分類模型)

3.2.2、k近鄰法
基于已知樣本,對(duì)未知樣本進(jìn)行預(yù)測(cè)時(shí),找到對(duì)應(yīng)的K個(gè)最近鄰,通過(guò)多數(shù)表決進(jìn)行預(yù)測(cè)。沒(méi)有顯式的學(xué)習(xí)過(guò)程。
3.2.3、決策樹(shù)
決策樹(shù)在每個(gè)單元定義一個(gè)類的概率分布,形成一個(gè)條件概率分布。決策樹(shù)中遞歸地選擇最優(yōu)特征,所謂最優(yōu)特征即分類效果最好的特征,算法中使用信息增益 (information gain)來(lái)衡量,對(duì)應(yīng)公式為:
其中D為訓(xùn)練集,A為待測(cè)試的特征,H(D)為熵 (經(jīng)驗(yàn)熵),H(D|A)為條件熵,兩者的計(jì)算為

但是以信息增益為劃分,存在偏向于選擇取值較多的特征,因此使用信息增益比來(lái)校正,

其中n為特征A的取值個(gè)數(shù)。
3.2.4、LR回歸模型
使用條件概率分布表示,

可以使用極大似然估計(jì)法估計(jì)模型參數(shù),對(duì)優(yōu)化目標(biāo)使用梯度下降法或者擬牛頓法。
3.2.5、最大熵模型
原理:概率模型中,熵最大的模型是最好的模型,可以使用拉格朗日函數(shù)求解對(duì)偶問(wèn)題解決。
3.2.6、支持向量機(jī) (SVM)
SVM分為線性可分支持向量機(jī) (硬間隔最大化)、線性支持向量機(jī) (軟間隔最大化)、非線性支持向量機(jī) (核函數(shù))三種。
目的是最大化間隔,這是和感知機(jī)最大的區(qū)別。
3.2.7、boosting方法
Adaboost等
通過(guò)改變訓(xùn)練樣本的權(quán)重,訓(xùn)練多個(gè)分類器,將分類器進(jìn)行線性組合,提升分類性能。AdaBoost采用加權(quán)多數(shù)表決的方法。
3.2.8、條件隨機(jī)場(chǎng) (conditional random field, CRF)
給定一組輸入隨機(jī)變量條件下另一組輸出隨機(jī)變量的條件概率分布模型,其特點(diǎn)是假設(shè)輸出隨機(jī)變量構(gòu)成馬爾可夫隨機(jī)場(chǎng)。可應(yīng)用于標(biāo)注問(wèn)題。
3.2.9、CNN
訓(xùn)練過(guò)程中,每一個(gè)中間層都有其功能,但其具體的功能無(wú)法知道。