二分類問題
這里我們考慮的是一個(gè)兩類的分類問題,數(shù)據(jù)點(diǎn)用來表示,這是一個(gè)
維向量,而類別用
來表示,可以取
或者
,分別代表兩個(gè)不同的類:
? ??????????????????????????????????????????????????????
劃分超平面方程
一個(gè)線性分類器就是要在維的數(shù)據(jù)空間中找到一個(gè)分離超平面,其方程可以表示為:
? ??????????????????????????????????????????????????????????
其中為法向量(控制超平面的旋轉(zhuǎn)方向),
為截距(控制超平面離原點(diǎn)的位置)
我們令?,在進(jìn)行分類的時(shí)候,我們將數(shù)據(jù)點(diǎn)
代入
中,如果得到的結(jié)果
,則賦予其類別
,如果
則賦予類別
:

幾何間隔
取任一樣本點(diǎn)到超平面的垂直距離為
,因向量
垂直于超平面,單位法向量為
。
我們有:,且點(diǎn)
在超平面上,滿足
,代入超平面方程:
;解得
如果樣本點(diǎn)在分類
這一側(cè)的話,距離為
,如果在分類
一側(cè),距離表示為
。
如果分類正確,則與
的符號(hào)一致(同正號(hào)或者同負(fù)號(hào)),把
的負(fù)號(hào)消去。
統(tǒng)一用表示任一樣本點(diǎn)到超平面的幾何距離:
或者

約束條件
我們希望樣本全部分類正確,并且分類間隔邊界(下圖虛線)上的樣本點(diǎn)為支持向量。
? ???????????????????????????????????????????
如果分類正確,則與
的符號(hào)一致(同正號(hào)或者同負(fù)號(hào)),上式可以合并為:
? ????????????????????????????????????????????????????????

最大化分類間隔
對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分類的時(shí)候,當(dāng)它的間隔越大的時(shí)候,置信度就越好。于是,我們希望能夠最大化這個(gè)間隔。
支持向量到劃分超平面的距離:
? ?????????????????????????????????????????????????
因劃分超平面是間隔的中軸線:
? ??????????????????????????????????????????????????????????????
我們希望最大間隔,并同時(shí)滿足于1.把兩個(gè)類正確給分開,2.分類間隔邊界上的樣本點(diǎn)為支持向量;這兩條約束:?
? ?????????????????????????????????????????????????????????????
? ??????????????????????????????
注意最大化間隔,僅需最大化,等價(jià)于最小化
(我在這里加上了平方和系數(shù),是為了以后進(jìn)行最優(yōu)化的過程中對(duì)目標(biāo)函數(shù)求導(dǎo)時(shí)比較方便,因?yàn)槲覀儾⒉魂P(guān)心最優(yōu)情況下目標(biāo)函數(shù)的具體數(shù)值)
? ?????????????????????????????????????????????????????????????
? ?????????????????????????????????
