SVM系列第十講--離群點(diǎn)處理

1、離群點(diǎn)

在最開(kāi)始討論支持向量機(jī)的時(shí)候,我們就假定,數(shù)據(jù)是線性可分的,亦即我們可以找到一個(gè)可行的超平面將數(shù)據(jù)完全分開(kāi)。后來(lái)為了處理非線性數(shù)據(jù),使用核方法對(duì)原來(lái)的線性 SVM 進(jìn)行了推廣,使得非線性的的情況也能處理。雖然通過(guò)映射 ?(?) 將原始數(shù)據(jù)映射到高維空間之后,能夠線性分隔的概率大大增加,但是對(duì)于某些情況還是很難處理。例如可能并不是因?yàn)閿?shù)據(jù)本身是非線性結(jié)構(gòu)的,而只是因?yàn)閿?shù)據(jù)有噪音。對(duì)于這種偏離正常位置很遠(yuǎn)的數(shù)據(jù)點(diǎn),我們稱之為離群點(diǎn)(outlier),在我們?cè)瓉?lái)的 SVM 模型里,離群點(diǎn)的存在有可能造成很大的影響,因?yàn)槌矫姹旧砭褪侵挥猩贁?shù)幾個(gè)support vector 組成的,如果這些 support vector 里又存在離群點(diǎn)的話,其影響就很大了。例如下圖:


離群點(diǎn)

用黑圈圈起來(lái)的那個(gè)藍(lán)點(diǎn)是一個(gè)離群點(diǎn),它偏離了自己原本所應(yīng)該在的那個(gè)半空間,如果直接忽略掉它的話,原來(lái)的分隔超平面還是挺好的,但是由于這個(gè)離群點(diǎn)的出現(xiàn),導(dǎo)致分隔超平面不得不被擠歪了,變成途中黑色虛線所示(這只是一個(gè)示意圖,并沒(méi)有嚴(yán)格計(jì)算精確坐標(biāo)),同時(shí)間隔也相應(yīng)變小了。當(dāng)然,更嚴(yán)重的情況是,如果這個(gè)離群點(diǎn)再往右上移動(dòng)一些距離的話,我們將無(wú)法構(gòu)造出能將數(shù)據(jù)分開(kāi)的超平面來(lái)。
那么SVM是如何處理這些離群點(diǎn)的呢?

2、離群點(diǎn)處理

為了處理這種情況,SVM 允許數(shù)據(jù)點(diǎn)在一定程度上偏離一下超平面。例如上圖中,黑色實(shí)線所對(duì)應(yīng)的距離,就是該離群點(diǎn)偏離的距離,如果把它移動(dòng)回來(lái),就剛好落在原來(lái)的超平面上,而不會(huì)使得超平面發(fā)生變形了。具體來(lái)說(shuō),原來(lái)的約束條件:


原約束條件

現(xiàn)在變成:


現(xiàn)約束條件

其中 ξi≥0 稱為松弛變量 (slack variable) ,對(duì)應(yīng)數(shù)據(jù)點(diǎn) xi 允許偏離的函數(shù)間隔的量。當(dāng)然,如果我們運(yùn)行 ξi 任意大的話,那任意的超平面都是符合條件的了。所以,我們?cè)谠瓉?lái)的目標(biāo)函數(shù)后面加上一項(xiàng),使得這些 ξi 的總和也要最?。?br>
現(xiàn)目標(biāo)函數(shù)

其中 C 是一個(gè)參數(shù),用于控制目標(biāo)函數(shù)中兩項(xiàng)(“尋找 間隔最大的超平面”和“保證數(shù)據(jù)點(diǎn)偏差量最小”)之間的權(quán)重。注意,其中 ξ 是需要優(yōu)化的變量(之一),而 C 是一個(gè)事先確定好的常量。完整地寫出來(lái)是這個(gè)樣子:



用之前的方法將限制加入到目標(biāo)函數(shù)中,得到如下問(wèn)題:

和原先求解方法一樣,我們通過(guò)構(gòu)造原問(wèn)題的對(duì)偶問(wèn)題來(lái)進(jìn)行求解:
求解

將 w 帶回  并化簡(jiǎn),得到和原來(lái)一樣的目標(biāo)函數(shù):


目標(biāo)函數(shù)

不過(guò),由于我們得到 C?αi?ri=0 ,而又有 ri≥0 (作為 Lagrange multiplier 的條件),因此有 αi≤C ,所以整個(gè) dual 問(wèn)題現(xiàn)在寫作:



和之前的結(jié)果對(duì)比一下,可以看到唯一的區(qū)別就是現(xiàn)在 dual variable α 多了一個(gè)上限 C 。而 Kernel 化的非線性形式也是一樣的,只要把 ?xi,xj? 換成 κ(xi,xj) 即可。這樣一來(lái),一個(gè)完整的,可以處理線性和非線性并能容忍噪音和 離群點(diǎn)的支持向量機(jī)才終于介紹完畢了。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容