本文首發(fā)與我的個(gè)人博客Suixin's Blog
線性分類(lèi)模型主要有四種不同的方法,線性判別函數(shù)、生成式模型、判別式模型以及貝葉斯觀點(diǎn)下的Logistic回歸。我們直接考慮對(duì)原始輸入空間進(jìn)行分類(lèi),當(dāng)然也適用于對(duì)輸入變量進(jìn)行一個(gè)固定的變換
。
判別函數(shù)是一個(gè)以向量為輸入,把它直接分配到
個(gè)類(lèi)別中的某一個(gè)類(lèi)別(
)的函數(shù)。
二分類(lèi)
線性判別函數(shù)為
如果,則它被分到
中,否則被分到
中。
多分類(lèi)
造成困難的方法
‘one-versus-the-rest'方法使用個(gè)分類(lèi)器,每個(gè)分類(lèi)器是一個(gè)二分類(lèi)問(wèn)題,分開(kāi)屬于
和不屬于的部分。但是可能會(huì)產(chǎn)生輸入空間無(wú)法分類(lèi)的區(qū)域,如圖所示。

‘one-versus-one'方法使用

正確的方法
引入一個(gè)類(lèi)判別函數(shù)可以避免上述問(wèn)題。該函數(shù)由
個(gè)線性函數(shù)構(gòu)成:
對(duì)于一個(gè)數(shù)據(jù)點(diǎn),如果
最大,就把它分到
中。于是類(lèi)別
與
之間的決策面為
。這樣的決策區(qū)域總是單連通的,并且是凸的。
對(duì)于二分類(lèi)問(wèn)題也可以構(gòu)造基于兩個(gè)線性函數(shù)和
的判別函數(shù),只是前述方法更簡(jiǎn)單且是等價(jià)的。
分類(lèi)的最小平方法(Least Squares)求解參數(shù)矩陣
對(duì)于一個(gè)一般的分類(lèi)問(wèn)題,每個(gè)類(lèi)別
有一個(gè)線性模型
使用矩陣記號(hào)
其中,每行為
,
為列向量,
為列向量。
一個(gè)新的輸入將被分到
最大的類(lèi)別中。
對(duì)于訓(xùn)練集,其中
,平方和誤差函數(shù)為
其中,,
采用‘1-of-K’表示方式。求導(dǎo)可得參數(shù)矩陣最優(yōu)解為
即可得判別函數(shù)為
然而,最小平方解對(duì)于離群點(diǎn)缺少魯棒性,且通常不會(huì)給出較好的結(jié)果,這與高斯條件分布假設(shè)有關(guān)。
Fisher線性判別函數(shù)
針對(duì)二分類(lèi)問(wèn)題,我們將數(shù)據(jù)投影到一維,通過(guò)調(diào)整權(quán)向量,使類(lèi)別之間分開(kāi)最大。投影式為
當(dāng)?shù)玫阶罴训耐队爸螅恍柙O(shè)置一個(gè)恰當(dāng)?shù)拈撝导纯蓪颖痉诸?lèi)。
投影之后的類(lèi)別均值差為
其中,和
為原始數(shù)據(jù)的類(lèi)別均值向量,此處限制
為單位長(zhǎng)度,即
。
Fisher思想:最大化一個(gè)函數(shù),使得類(lèi)均值的投影分開(kāi)較大,類(lèi)內(nèi)的方差較小。
Fisher準(zhǔn)則根據(jù)類(lèi)間方差和類(lèi)內(nèi)方差的比值定義:
其中,投影后的一維類(lèi)內(nèi)方差為,
。
化簡(jiǎn)可得
其中,和
分別為類(lèi)間協(xié)方差陣和類(lèi)內(nèi)協(xié)方差陣
對(duì)求導(dǎo)可得
若類(lèi)內(nèi)協(xié)方差陣是各向同性的,則正比于單位矩陣,
正比于原始數(shù)據(jù)的類(lèi)均值差。
對(duì)于多分類(lèi)問(wèn)題,也有對(duì)應(yīng)的Fisher判別函數(shù)。
感知器算法
對(duì)輸入向量先進(jìn)行一個(gè)固定的非線性變換再構(gòu)造一個(gè)線性模型,為
其中,為一個(gè)階梯函數(shù)
此處我們使用表示
,
表示
。
我們需要找到合適的權(quán)向量使得對(duì)所有的數(shù)據(jù)點(diǎn)有
。
感知器準(zhǔn)則:對(duì)于誤分類(lèi)的數(shù)據(jù)賦予誤差,則誤差函數(shù)為
其中,表示所有誤分類(lèi)數(shù)據(jù)的集合。對(duì)該誤差函數(shù)使用隨機(jī)梯度下降(SGD)
由于的設(shè)置,不失一般性可設(shè)
。則實(shí)際上SGD變?yōu)榱耍喝绻摂?shù)據(jù)點(diǎn)分類(lèi)正確,則權(quán)向量保持不變;如果分類(lèi)錯(cuò)誤,對(duì)于類(lèi)別
,把向量
加到當(dāng)前的權(quán)向量上得到新的權(quán)向量,對(duì)于類(lèi)別
,則從當(dāng)前的權(quán)向量中減掉
得到新的權(quán)向量。
注:感知器學(xué)習(xí)規(guī)則并不保證在每個(gè)階段都會(huì)減小整體誤差。但由感知器收斂定理,如果訓(xùn)練數(shù)據(jù)線性可分,那么感知器算法可以保證在有限步驟內(nèi)找到精確解。對(duì)于線性不可分?jǐn)?shù)據(jù),則永遠(yuǎn)不會(huì)收斂。