上一節(jié)我們講到,我們要像線性分類器一樣找到一個(gè)超平面,不僅能夠?qū)?shù)據(jù)點(diǎn)進(jìn)行一個(gè)準(zhǔn)確的分隔,同時(shí)我們希望所有的點(diǎn)盡量都能夠遠(yuǎn)離我們的超平面,即所有點(diǎn)的f(x)值都是很大的正數(shù)或者是很小的負(fù)數(shù)。
但這里就會(huì)有一個(gè)疑問了,為什么f(x)值能夠代表數(shù)據(jù)點(diǎn)遠(yuǎn)離超平面的程度呢?接下來,我們將討論點(diǎn)到超平面的距離問題。
1、函數(shù)間隔
我們的函數(shù)間隔定義為:

可以看到,函數(shù)間隔其實(shí)就是類別標(biāo)簽乘上了f(x)的值,可以看到,該值永遠(yuǎn)是大于等于0的,正好符合了距離的概念,距離總不能是負(fù)的吧。那么為什么該值可以表示數(shù)據(jù)點(diǎn)到超平面的距離呢?我們不妨這樣想,假設(shè)y=1,f(x)=1,其實(shí)就是將原來的分類超平面f(x) 向右平移了1個(gè)單位,而y=1,f(x)=2是將原來的分類超平面f(x) 向右平移了2個(gè)單位,所以f(x)值越大的點(diǎn)到分類超平面的距離當(dāng)然越遠(yuǎn),這就解釋了我們之前提出的問題。
但是函數(shù)間隔存在一定的問題,上述定義的函數(shù)間隔雖然可以表示分類預(yù)測(cè)的正確性和確信度,但在選擇分類 超平面時(shí),只有函數(shù)間隔還遠(yuǎn)遠(yuǎn)不夠,因?yàn)槿绻杀壤母淖?w 和 b,如將他們改變?yōu)?2w 和 2b,雖然此時(shí)超 平面沒有改變,但函數(shù)間隔的值 yf (x) 卻變成了原來的 4 倍。
所以在實(shí)際中,我們定義點(diǎn)到超平面的距離時(shí),采用的是幾何間隔。
2、幾何間隔
在介紹幾何間隔之前,我們先來看一下下圖:

對(duì)應(yīng)的為 x0,由于 w 是垂直于超平面的一個(gè)向量,r 為樣本 x 到分類間隔的距離,我們有:

要理解這個(gè)式子,我們首先需要知道為什么w是垂直于超平面的向量,其實(shí)舉個(gè)例子就很容易明白,假設(shè)超平面的公式為 x1+x2-1 = 0
w=(1,1)T(表示轉(zhuǎn)置):

另一方面,要想使r表示距離,我們必須對(duì)w進(jìn)行標(biāo)準(zhǔn)化,所以需要除以它的二范數(shù)。
又由于 x0 是超平面上的點(diǎn),滿足 f(x0) = 0,代入超平面的方程即可算出:

這個(gè)式子是如何推導(dǎo)的呢,看下面的過程:

字寫的比較爛,希望大家不要介意。
不過這里的 γ 是帶符號(hào)的,我們需要的只是它的絕對(duì)值,因此類似地,也乘上對(duì)應(yīng)的類別 y 即可,因此實(shí)際上我們定義幾何間隔為:

可以看到,此時(shí)系數(shù)的成倍的變化,不會(huì)帶來幾何間隔的改變。數(shù)學(xué)功底比較深厚的童鞋可能發(fā)現(xiàn)了,這里的幾何間隔其實(shí)就是我們本科高等數(shù)學(xué)中學(xué)到的點(diǎn)到直線的距離公式,這里我們順手就將其推倒出來了,是不是很有成就感!
