前言
在分類問題中,有一些數(shù)據(jù)在地位空間里面是線性不可分的,但是我們把這一些數(shù)據(jù)映射到高維空間,我們就可以找到一個線性超平面,將兩類數(shù)據(jù)線性分類。那么這樣把低維空間的data映射到高維空間的方法我們稱之為核方法
類比于降維,降維是將高維空間的data保留其最大特征,然后將其投影到低維空間;而核方法則是將低維的data映射到高維空間。
核方法的作用
正如前言所說的,線性化的方法往往最為直接,簡單。例如在回歸問題中,線性回歸無疑是最簡單的方式,但是往往很多時候我們得到的并不是直接的線性關系,通常需要我們對數(shù)據(jù)做一些變形,比方說對決策變量和響應變量做一些函數(shù)變化后,使其滿足線性關系;或者根據(jù)散點圖估算非線性的函數(shù)關系式,利用非線性最小二乘法估計參數(shù),并評價模型效果。
對于分類問題來說,常見的例如SVM,我們需要在空間中找到一個線性的超平面來對你對data進行而分類,有一些情況可以進行線性分類,但是有一些不能進行線性分類。而不能線性分類又可以看成兩種,一種是完全不可以線性分類,一種是在當前維度的空間無法線性分類,但是在高維空間里面可以進行線性分類(在數(shù)學上證明過的)。

比方說上圖,在二維空間內是無法線性可分的,但是我們通過觀察發(fā)現(xiàn)Tumor和Normal又是可分開的,那么我們需要把數(shù)據(jù)映射到高維空間上,在高維空間中尋找到一個超平面,線性分類這兩個group
比方說將二維數(shù)據(jù)通過高斯核函數(shù)映射到三維:

在三維空間內我們就可以很輕松的找到個線性超平面進行二分類。那么我們將三維空間的線性可分超平面結合數(shù)據(jù)點的分布(在三維空間的高斯分布中,黑點位于頂峰的位置,靠中心,白點則位于較為外側的部位),投影到原二維平面后,得到的橢圓決策邊界即為二維平面的分類曲線

高斯核函數(shù)
高斯核的表達式為:

對于高斯核函數(shù),我們怎么把低維數(shù)據(jù)映射到高維呢?借助泰勒公式:

高維空間的每一個元素為:

比方說我們想將二維data通過高斯核函數(shù)轉換成三維data,我們將泰勒展開式取2階就可以了,假設在二維平面內我們有x這個點(x1,x2表示二維坐標):

其中Z1,Z2,Z3是三維空間構成的新坐標,這樣就實現(xiàn)了低維數(shù)據(jù)映射到高維