假設給定一個特征空間上的訓練數據集
其中,,
,
,
為第
個特征向量,也稱為實例,
為
的類標記,當
時,稱
為正例;當
時,稱
為負例,
稱為樣本點。再假設訓練數據集不是線性可分的。通常情況是,訓練數據中有一些特異點,將這些特異點除去后,剩下大部分的樣本點組成的集合是線性可分的。
線性不可分意味著某些樣本點不能滿足函數間隔大于等于1的約束條件。為了解決這個問題,可以對每個樣本點
引進一個松弛變量
,使函數間隔加上松弛變量大于等于1。這樣,約束條件變?yōu)?br>
目標函數由原來的最小化變成最小化
是對誤分類的懲罰,
越大,對誤分類懲罰越大。相對于線性可分支持向量機的硬間隔最大化,這叫做軟間隔最大化。
于是線性不可分支持向量機的學習的原始問題為凸二次規(guī)劃問題:
可以證明的解是唯一的,但
的解可能不唯一,而是存在于一個區(qū)間。證明略。
假如,
是最優(yōu)化問題(1)-(3)的解,則得到的超平面為
分類決策函數為
稱為線性支持向量機。
對偶的學習算法
由原始問題(1)-(3),首先構建拉格朗日函數
其中,
,于是原始問題可以寫成
則對偶問題為
首先求解內部極小化問題,求對
,
,
的偏導并使其等于0:
得
將公式(7)-(9)代入(6)得到
于是原始的問題(1)-(3)的對偶問題可以寫成
對其進一步改寫,由公式(12)得
代入公式(14)得
所以公式(12)-(14)可以簡寫為
再對目標函數取相反數,得到對偶問題
定理
設是對偶問題(15)-(17)的一個解,若存在
的一個分量
,
,則原始問題(1)-(3)的解
,
可按下式得到:
證明略。
于是分離超平面可以寫成
分類決策函數
線性支持向量機學習算法
輸入:訓練數據集,其中,
,
,
;
輸出:分離超平面和分類決策函數。
(1)選擇懲罰參數,構造并求解凸二次規(guī)劃問題
求的最優(yōu)解。
(2)計算
選擇的一個分量
適合條件
,計算
(3)求得分離超平面
分類決策函數:
支持向量
由公式
得知的樣本點
能夠影響支持向量機的參數。而
,所以支持向量為
的樣本點
。這些支持向量分布在間隔邊界上、間隔邊界與分離超平面之間或者在分離超平面誤分一側。若
,則
(由
條件可以推出,由于
的結果不影響分離超平面,所以一般也不去算,其計算過程略),支持向量恰好落在間隔邊界上;若
,
,則分類正確,支持向量在間隔邊界與分離超平面之間;若
,
,則
在分離超平面上;若
,
,則
在分離超平面誤分一側。
合頁損失函數
線性支持向量機的學習還等價于最小化以下目標函數:
證明過程略。其中目標函數的第一項是經驗損失或經驗風險,第二項是正則化項。函數
稱為合頁損失函數。下標"+"表示函數,由于函數形狀像一個合頁,故名合頁損失函數。合頁損失函數相比感知機的0-1損失,不僅要求分類正確,還要求確信度足夠高時(函數間隔大于等于1)損失才是0,所以支持向量機的學習比感知機有更高的要求。