日本视频黄页,亚洲精品一区二区91

上一章我們介紹了SVM算法的意義，SVM是large-margin算法，旨在找到一條能夠完全區(qū)分訓練集而且擁有最大margin值的直線。在這一章節(jié)里，我們將推導margin的計算方式和SVM最終要解決的問題的方程表達式。

任意點到決策邊界距離（1）－初步表達式

上章節(jié)我們提到，margin值就是所有數據點到決策邊界的距離里面的最小值，所以首先我們要計算平面內任意一點到決策邊界的距離。為了使得表述和理解更簡單，在下面的所有推導中，我們都采用二維平面內的數據作為例子去做解釋。二維平面得到的結論可以推廣到任意維度的空間當中。

上圖是一個在上一章節(jié)用過的二維數據集例子。在圖中，紅色的數據點是需要計算到決策邊界距離的點，我們標注其為X。X1為決策邊界上的點。注意，這里的X1跟坐標軸上的x1不一樣，這里的X1是一個點，也是一個擁有兩個維度的向量。坐標軸上的x1是兩個維度對應的值的大小，是標量。圖中的distance是我們需要計算的距離，該線段與決策邊界垂直且與點X相交。

現在，假定圖中的決策邊界是由特征權重向量W和偏差值b決定的，既對于任意數據點，h(X) = sign(W^TX + b)，該分類器是一個線性分類器(linear classifier)。對于任意數據X，當W^TX + b > 0的時候預測該點為正類，當W^TX + b < 0的時候預測該點為負類。當W^TX + b = 0的時候，該點正好落在決策邊緣上，此時分類器將其預測為正類來打破平衡(tie-break)。因此，我們很容易得到決策邊界的方程為W^TX + b = 0。

為了計算點X到決策邊界的距離，我們做了一條輔助線，這條輔助線穿過點X和決策邊界上的一點X1。根據高中幾何知識我們知道X到決策邊緣的距離D，是向量X X1長度在垂直于決策邊界方向上的投影，既Distance = ||X - X1||cos(a)，a為向量XX1與垂直于決策邊界方向的夾角。

此時，要計算Distance大小我們有兩個方法，第一個方法是計算角度a以及||X - X1||的大小，第二個方法是找到一個垂直于決策邊界的向量，假設是P。則距離

對于以上的公式推導，我們將會在下面演示。

根據經驗而言，求法向量P往往比求角度a要簡單一些，所以我們在這里采用第二種方法。由于我們最終需要用權重向量W和偏差b來表示距離大小，所以上面公式的是距離的初步表達式，我們還需要進行進一步推算。

任意點到決策邊界距離（2）－初步表達式的證明

剛剛我們提到了第二種計算距離的方法，并給出了計算公式，現在我們要證明計算公式的正確性。

首先根據向量相乘公式我們知道，兩個向量相乘等于向量長度的乘積再與向量夾角余弦值的乘積。既

上面的式子說的是向量P和向量||X - X1||的乘積，因為P是垂直于決策邊界，所以P與X - X1向量的夾角就是第一個坐標圖中的角a。之前我們提到過，所求距離Distance = ||X - X1|| cos(a)。因此根據上面的得到的公式我們可以推出：

任意點到決策邊界距離（3）－找到跟決策邊界垂直的向量P

在前面我們介紹并推導了任意點到決策邊界距離的初步表達式。現在，我們要找到公式當中的向量P，一個垂直于決策邊界的向量。

現在我們再定義另一個落在決策邊界上的點X2。
X1和X2都落在決策邊界上，因此對于點X1和X2，滿足決策邊界方程

我們把方程組中的上下兩式相減得到 W^T (X1 - X2) = 0。向量相乘等于零說明向量方向互相垂直。因此我們可以得到W^T ⊥ (X1 - X2)。由于X1和X2都落在決策邊界上，所以，(X1 - X2)的方向就是決策邊界的方向。因此W^T就是我們要找的垂直于決策邊界的向量P。

任意點到決策邊界距離（4）－最終表達式

上面我們得到了垂直于決策邊界的向量 W^T，現在我們把W^T代入到前面的得到的距離初步表達式當中，

我們把W^T放到后面的括號里面：

因為X1是決策邊界上的一點，所以有

把上式代入Distance公式當中得到

為了讓式子看著更簡單，我們把||W^T||換成||W||，因為
W的長度與其轉置的長度一樣。

這個距離公式還存在一個問題，就是W^TX + b的值有可能為負，這樣算出來的距離就會為負值，這不符合我們常規(guī)當中對距離大小的認識，我們常識當中總認為距離是非負的。因此我們在W^TX + b外面加上一個絕對值符號，確保其非負。下面就是任意點X到決策邊界的距離最終表達式：

Margin表達式的推導

前面我們推導了任意點到決策平面的距離表達式，下面我們要把問題回歸到SVM，推導Margin值的表達式。
在上一章節(jié)我們提到，SVM的前提是要把訓練集無錯誤地分開，也就是說，對于所有訓練數據X, W^TX + b 于這個點的分類值y_n必須是同號，即y_n (W^TX + b) > 0。
因為y_n只有兩個值，+1和-1, 我們可以把距離公式當中的絕對值符號去掉，但是要添加一個條件：