如何給五歲小孩講解SVM SVM-1

SVM系列開篇,翻譯自:https://www.reddit.com/r/MachineLearning/comments/15zrpp/please_explain_support_vector_machines_svm_like_i/


在桌子上有一堆兩種顏色的球,我們想將其分開:



用一根stick棒棒放上去,怎么樣還行吧?:


但是有個(gè)賤人又放了球,這樣就似乎有一個(gè)球落在了錯(cuò)誤的一側(cè),可能需要調(diào)整棒棒:


SVM就是要將棒棒放置到最佳位置上,使得兩側(cè)都有差不多的間隔,也就是距離兩側(cè)球球的直線距離盡可能一樣:


現(xiàn)在即使有賤人搗亂,棒棒的位置看著也不錯(cuò):

SVM套件里還有個(gè)更重要的玩意trick呢,現(xiàn)在賤人看到你的棒棒用得好,所以發(fā)起新的挑戰(zhàn):


這樣子的分布是沒有任何一根直棒棒可以很好分類的,怎么辦?掀翻桌子把球拋起來!憑你的水果忍者技術(shù),用一張紙切到球球中間!


現(xiàn)在~特征空間出現(xiàn)了,在賤人的視角看來球球被一條曲線完美分隔:

低維非線性分界線其實(shí)在高維度是可以線性分割的-全文重點(diǎn)(參見最后的補(bǔ)充

無聊的大人們把球稱為數(shù)據(jù)、棒棒稱為分類器、找到最大間隔稱為優(yōu)化、掀翻桌子叫函數(shù)kernelling(積分方程的核、神秘的核)也就是kernel trick核技巧、那張紙叫超平面。

評(píng)論:

1、補(bǔ)充一點(diǎn):實(shí)際上我們可以僅僅憑著少量距離棒棒/超平面紙最近的球計(jì)算出來該最佳位置!,其他大部分球其實(shí)沒用,這些少量重要的球球稱為:支持向量support vectors

2、通用名稱上稱棒棒和紙為:分割超平面separating hyperplane

3、像其他的很多ML算法一樣,SVM需要一些已分好類的數(shù)據(jù)作為訓(xùn)練集、然后可以去預(yù)測(cè)未分類的測(cè)試集。對(duì)于數(shù)據(jù)經(jīng)常會(huì)有很多不同的特征,例如如果所有的數(shù)據(jù)只有兩個(gè)特征,如圖:


我們需要做的是找到分隔兩組不同類數(shù)據(jù)的線、這條線是距離所有最近點(diǎn)最遠(yuǎn)的,圖中是紅線。我們得到的線即分類器,之后就看測(cè)試數(shù)據(jù)落在線的哪一邊。決策那一條線是優(yōu)化問題,可以用二次多項(xiàng)式編程解決。


SVM能做什么


SVM間隔

補(bǔ)充:

為什么將非線性問題轉(zhuǎn)化為線性問題這么重要?參見線性代數(shù)百度百科

劃重點(diǎn):

各種實(shí)際問題在大多數(shù)情況下可以線性化,而由于計(jì)算機(jī)的發(fā)展,線性化了的問題又可以計(jì)算出來,線性代數(shù)正是解決這些問題的有力工具。線性代數(shù)的計(jì)算方法也是計(jì)算數(shù)學(xué)里一個(gè)很重要的內(nèi)容。

“以直代曲”是人們處理很多數(shù)學(xué)問題時(shí)一個(gè)很自然的思想。很多實(shí)際問題的處理,最后往往歸結(jié)為線性問題,它比較容易處理。

如果進(jìn)入科研領(lǐng)域,你就會(huì)發(fā)現(xiàn),只要不是線性的東西,我們基本都不會(huì)!線性是人類少數(shù)可以研究得非常透徹的數(shù)學(xué)基礎(chǔ)性框架。學(xué)好線性代數(shù),你就掌握了絕大多數(shù)可解問題的鑰匙。有了這把鑰匙,再加上相應(yīng)的知識(shí)補(bǔ)充,你就可以求解相應(yīng)的問題??梢哉f,不學(xué)線性代數(shù),你就漏過了95%的人類智慧!非線性的問題極為困難。如果能夠把非線性的問題化為線性的,這是我們一定要走的方向!

事實(shí)上,微積分“以直代曲"的思想就是將整體非線性化為局部線性的一個(gè)經(jīng)典的例子,盡管高等數(shù)學(xué)在定義微分時(shí)并沒有用到一點(diǎn)線性代數(shù)的內(nèi)容。

這就是SVM的意義。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容