利用核方法將低維數(shù)據(jù)映射到高維

前言

在分類問題中,有一些數(shù)據(jù)在地位空間里面是線性不可分的,但是我們把這一些數(shù)據(jù)映射到高維空間,我們就可以找到一個線性超平面,將兩類數(shù)據(jù)線性分類。那么這樣把低維空間的data映射到高維空間的方法我們稱之為核方法
類比于降維,降維是將高維空間的data保留其最大特征,然后將其投影到低維空間;而核方法則是將低維的data映射到高維空間。

核方法的作用

正如前言所說的,線性化的方法往往最為直接,簡單。例如在回歸問題中,線性回歸無疑是最簡單的方式,但是往往很多時候我們得到的并不是直接的線性關系,通常需要我們對數(shù)據(jù)做一些變形,比方說對決策變量和響應變量做一些函數(shù)變化后,使其滿足線性關系;或者根據(jù)散點圖估算非線性的函數(shù)關系式,利用非線性最小二乘法估計參數(shù),并評價模型效果。

對于分類問題來說,常見的例如SVM,我們需要在空間中找到一個線性的超平面來對你對data進行而分類,有一些情況可以進行線性分類,但是有一些不能進行線性分類。而不能線性分類又可以看成兩種,一種是完全不可以線性分類,一種是在當前維度的空間無法線性分類,但是在高維空間里面可以進行線性分類(在數(shù)學上證明過的)。



比方說上圖,在二維空間內是無法線性可分的,但是我們通過觀察發(fā)現(xiàn)Tumor和Normal又是可分開的,那么我們需要把數(shù)據(jù)映射到高維空間上,在高維空間中尋找到一個超平面,線性分類這兩個group
比方說將二維數(shù)據(jù)通過高斯核函數(shù)映射到三維:



在三維空間內我們就可以很輕松的找到個線性超平面進行二分類。那么我們將三維空間的線性可分超平面結合數(shù)據(jù)點的分布(在三維空間的高斯分布中,黑點位于頂峰的位置,靠中心,白點則位于較為外側的部位),投影到原二維平面后,得到的橢圓決策邊界即為二維平面的分類曲線

高斯核函數(shù)

高斯核的表達式為:



對于高斯核函數(shù),我們怎么把低維數(shù)據(jù)映射到高維呢?借助泰勒公式:



高維空間的每一個元素為:

比方說我們想將二維data通過高斯核函數(shù)轉換成三維data,我們將泰勒展開式取2階就可以了,假設在二維平面內我們有x這個點(x1,x2表示二維坐標):



其中Z1,Z2,Z3是三維空間構成的新坐標,這樣就實現(xiàn)了低維數(shù)據(jù)映射到高維

部分參考:
透徹理解高斯核函數(shù)背后的哲學思想與數(shù)學思想

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內容