線性分類(lèi)模型(一)——線性判別函數(shù)

本文首發(fā)與我的個(gè)人博客Suixin's Blog

線性分類(lèi)模型主要有四種不同的方法,線性判別函數(shù)、生成式模型、判別式模型以及貝葉斯觀點(diǎn)下的Logistic回歸。我們直接考慮對(duì)原始輸入空間\pmb{x}進(jìn)行分類(lèi),當(dāng)然也適用于對(duì)輸入變量進(jìn)行一個(gè)固定的變換\phi(\pmb{x})。
判別函數(shù)是一個(gè)以向量\pmb{x}為輸入,把它直接分配到K個(gè)類(lèi)別中的某一個(gè)類(lèi)別(C_k)的函數(shù)。

二分類(lèi)

線性判別函數(shù)為
y(\pmb{x})=\pmb{w}^\top\pmb{x}+w_0
如果y(\pmb{x})\geqslant0,則它被分到C_1中,否則被分到C_2中。

多分類(lèi)

造成困難的方法

‘one-versus-the-rest'方法使用K-1個(gè)分類(lèi)器,每個(gè)分類(lèi)器是一個(gè)二分類(lèi)問(wèn)題,分開(kāi)屬于C_k和不屬于的部分。但是可能會(huì)產(chǎn)生輸入空間無(wú)法分類(lèi)的區(qū)域,如圖所示。

image

‘one-versus-one'方法使用
\frac{K(K-1)}{2}
個(gè)分類(lèi)器,每個(gè)數(shù)據(jù)點(diǎn)的類(lèi)別根據(jù)這些判別函數(shù)中的大多數(shù)輸出類(lèi)別確定。但是這也可能會(huì)產(chǎn)生輸入空間無(wú)法分類(lèi)的區(qū)域,如圖所示。
image

正確的方法

引入一個(gè)K類(lèi)判別函數(shù)可以避免上述問(wèn)題。該函數(shù)由K個(gè)線性函數(shù)構(gòu)成:
y_k(\pmb{x})=\pmb{w}_k^\top\pmb{x}+w_{k0}
對(duì)于一個(gè)數(shù)據(jù)點(diǎn)\pmb{x},如果y_k(\pmb{x})最大,就把它分到C_k中。于是類(lèi)別C_kC_j之間的決策面為y_k(\pmb{x})=y_j(\pmb{x})。這樣的決策區(qū)域總是單連通的,并且是凸的。
對(duì)于二分類(lèi)問(wèn)題也可以構(gòu)造基于兩個(gè)線性函數(shù)y_1(\pmb{x})y_2(\pmb{x})的判別函數(shù),只是前述方法更簡(jiǎn)單且是等價(jià)的。

分類(lèi)的最小平方法(Least Squares)求解參數(shù)矩陣

對(duì)于一個(gè)一般的K分類(lèi)問(wèn)題,每個(gè)類(lèi)別C_k有一個(gè)線性模型
y_k(\pmb{x})=\pmb{w}_k^\top\pmb{x}+w_{k0}
使用矩陣記號(hào)
\pmb{y}(\pmb{x})=\tilde{W}^\top\tilde{\pmb{x}}
其中,W^\top=(\tilde{\pmb{w}}_1,\tilde{\pmb{w}}_2,\cdots,\tilde{\pmb{w}}_K)^\top每行為\tilde{\pmb{w}}_k^\top,\tilde{\pmb{w}}_k=(w_{k0},\pmb{w}_k^\top)^\top為列向量,\tilde{\pmb{x}}=(1,\pmb{x}^\top)^\top為列向量。
一個(gè)新的輸入\pmb{x}將被分到y_k(\pmb{x})=\tilde{\pmb{w}}_k^\top\tilde{\pmb{x}}最大的類(lèi)別中。
對(duì)于訓(xùn)練集\{\pmb{x}_n,\pmb{t}_n\},其中n=1,2,\cdots,N,平方和誤差函數(shù)為
E_D(\tilde{W})=\frac{1}{2}Tr\{(\tilde{X}\tilde{W}-T)^\top(\tilde{X}\tilde{W}-T)\}
其中,\tilde{X}=(\tilde{\pmb{x}}_1^\top,\tilde{\pmb{x}}_2^\top,\cdots,\tilde{\pmb{x}}_N^\top)^\top,T=(\tilde{\pmb{t}}_1^\top,\tilde{\pmb{t}}_2^\top,\cdots,\tilde{\pmb{t}}_N^\top)^\top采用‘1-of-K’表示方式。求導(dǎo)可得參數(shù)矩陣最優(yōu)解為
\tilde{W}=(\tilde{X}^\top\tilde{X})^{-1}\tilde{X}^\top T=\tilde{X}^\dagger T
即可得判別函數(shù)為
\pmb{y}(\pmb{x})=\tilde{W}^\top\tilde{\pmb{x}}=T^\top(\tilde{X}^\dagger)^\top\tilde{\pmb{x}}
然而,最小平方解對(duì)于離群點(diǎn)缺少魯棒性,且通常不會(huì)給出較好的結(jié)果,這與高斯條件分布假設(shè)有關(guān)。

Fisher線性判別函數(shù)

針對(duì)二分類(lèi)問(wèn)題,我們將數(shù)據(jù)投影到一維,通過(guò)調(diào)整權(quán)向量,使類(lèi)別之間分開(kāi)最大。投影式為
y=\pmb{w}^\top\pmb{x}
當(dāng)?shù)玫阶罴训耐队爸螅恍柙O(shè)置一個(gè)恰當(dāng)?shù)拈撝导纯蓪颖痉诸?lèi)。
投影之后的類(lèi)別均值差為
m_2-m_1=\pmb{w}^\top(\pmb{m}_2-\pmb{m}_1)
其中,\pmb{m}_1\pmb{m}_2為原始數(shù)據(jù)的類(lèi)別均值向量,此處限制\pmb{w}為單位長(zhǎng)度,即\sum_iw_i^2=1。
Fisher思想:最大化一個(gè)函數(shù),使得類(lèi)均值的投影分開(kāi)較大,類(lèi)內(nèi)的方差較小。
Fisher準(zhǔn)則根據(jù)類(lèi)間方差和類(lèi)內(nèi)方差的比值定義:
J(\pmb{w})=\frac{(m_2-m_1)^2}{s_1^2+s_2^2}
其中,投影后的一維類(lèi)內(nèi)方差為s_k^2=\sum_{n\in C_k}(y_n-m_k)^2,y_n=\pmb{w}^\top\pmb{x}_n
化簡(jiǎn)可得
J(\pmb{w})=\frac{\pmb{w}^\top S_B\pmb{w}}{\pmb{w}^\top S_W\pmb{w}}
其中,S_BS_W分別為類(lèi)間協(xié)方差陣和類(lèi)內(nèi)協(xié)方差陣
S_B=(\pmb{m}_2-\pmb{m}_1)(\pmb{m}_2-\pmb{m}_1)^\top \\ S_W=\sum_{n\in C_1}(\pmb{x}_n-\pmb{m}_1)(\pmb{x}_n-\pmb{m}_1)^\top+\sum_{n\in C_2}(\pmb{x}_n-\pmb{m}_2)(\pmb{x}_n-\pmb{m}_2)^\top
對(duì)J(\pmb{w})求導(dǎo)可得
(\pmb{w}^\top S_B\pmb{w})S_W\pmb{w}=(\pmb{w}^\top S_W\pmb{w})S_B\pmb{w}\\ \pmb{w}\propto S_W^{-1}(\pmb{m}_2-\pmb{m}_1)
若類(lèi)內(nèi)協(xié)方差陣是各向同性的,則S_W正比于單位矩陣,\pmb{w}正比于原始數(shù)據(jù)的類(lèi)均值差。
對(duì)于多分類(lèi)問(wèn)題,也有對(duì)應(yīng)的Fisher判別函數(shù)。

感知器算法

對(duì)輸入向量先進(jìn)行一個(gè)固定的非線性變換再構(gòu)造一個(gè)線性模型,為
y(\pmb{x})=f(\pmb{w}^\top\phi(\pmb{x}))
其中,f(·)為一個(gè)階梯函數(shù)
f(a)= \begin{cases} 1, & a\geqslant0 \\ -1, & a<0 \end{cases}
此處我們使用t=+1表示C_1,t=-1表示C_2。
我們需要找到合適的權(quán)向量\pmb{w}使得對(duì)所有的數(shù)據(jù)點(diǎn)有\pmb{w}^\top\phi(\pmb{x}_n)\pmb{t}_n>0
感知器準(zhǔn)則:對(duì)于誤分類(lèi)的數(shù)據(jù)\pmb{x}_n賦予誤差,則誤差函數(shù)為
E_P(\pmb{w})=-\sum_{n\in \mathscr{M}}\pmb{w}^\top\phi_n\pmb{t}_n
其中,\mathscr{M}表示所有誤分類(lèi)數(shù)據(jù)的集合。對(duì)該誤差函數(shù)使用隨機(jī)梯度下降(SGD)
\pmb{w}^{(\tau+1)}=\pmb{w}^{(\tau)}-\eta\nabla E_P(\pmb{w})=\pmb{w}^{(\tau)}+\eta\phi_n\pmb{t}_n
由于f(·)的設(shè)置,不失一般性可設(shè)\eta=1。則實(shí)際上SGD變?yōu)榱耍喝绻摂?shù)據(jù)點(diǎn)分類(lèi)正確,則權(quán)向量保持不變;如果分類(lèi)錯(cuò)誤,對(duì)于類(lèi)別C_1,把向量\phi(\pmb{x}_n)加到當(dāng)前的權(quán)向量上得到新的權(quán)向量,對(duì)于類(lèi)別C_2,則從當(dāng)前的權(quán)向量中減掉\phi(\pmb{x}_n)得到新的權(quán)向量。
:感知器學(xué)習(xí)規(guī)則并不保證在每個(gè)階段都會(huì)減小整體誤差。但由感知器收斂定理,如果訓(xùn)練數(shù)據(jù)線性可分,那么感知器算法可以保證在有限步驟內(nèi)找到精確解。對(duì)于線性不可分?jǐn)?shù)據(jù),則永遠(yuǎn)不會(huì)收斂。

參考

“Pattern Recognition and Machine Learning”

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容