5秒導(dǎo)讀:本文將介紹最簡單的機器學習算法——K近鄰算法,以及如何應(yīng)用k近鄰算法完成分類任務(wù)。并介紹新開大坑《我們一起玩AI》
某位名人曾經(jīng)說過:自己挖的大坑總要填上。
在之發(fā)布的文章《大數(shù)據(jù)AI改變生活——Logistic回歸告訴你追到女神的概率(上)》中曾說過要介紹Logistic回歸算法的原理,不過這并不是一件容易的事,其中涉及了太多數(shù)學知識,所以特別推出一個新系列《我們一起玩AI》,本系列將從基礎(chǔ)的數(shù)學開始講起。
別擔心——既然是玩,我們就不會把事情弄的復(fù)雜,所有數(shù)學內(nèi)容的講述都會犧牲一定嚴謹性,以便易理解。
傳說中換一個燈泡需要3個數(shù)學家,一個證明燈泡可換,一個證明可換的唯一性,最后一個負責推導(dǎo)一個算法來扭燈泡。
不過我們是鄙視鏈最底端的工程師!我們不搞證明,我們就是干!Just For Fun!
言歸正傳,開始今天的主題——?k近鄰算法
古人云:“近朱者赤近墨者黑”,k近鄰算法曰:離哪一群比較近就算作哪一類!
假設(shè)下圖中左下角的點為B類,右上角的點為A類,那么點E屬于哪一類?當然!B類,為啥?距離近?。]錯這就是我們的k近鄰算法!
讓我們從電影說起吧,比如動作電影普遍具有50次以上槍戰(zhàn)鏡頭,愛情電影普遍具有50次以上kiss鏡頭,電影A有76次槍戰(zhàn)2次kiss鏡頭,理所當然電影A是動作片,而電影V有66次槍戰(zhàn),62次Kiss電影V是?ASRay曰:
k近鄰將數(shù)據(jù)繪制在笛卡爾中,以上述的電影分類為例,橫坐標可以代表槍戰(zhàn)鏡頭出現(xiàn)的次數(shù),縱坐標則為kiss鏡頭出現(xiàn)的次數(shù)。
我們把比較集中的一簇表示一個分類(該過程可由K均值聚類完成)。
當需要判斷一個未知點X的分類時,1計算點X到所有點的距離并排序。2 找出其中距離X最近的K個點。3 判斷,如果前K個點中A類最多,那么X也為A類。
當然現(xiàn)實世界中的數(shù)據(jù),絕對不止2個維度那么簡單,比如一個人每天寫多少字,抽多少煙,玩多少分鐘游戲,走多少步路,吃幾碗飯.........不過沒關(guān)系一一寫出來就行,比如x=(X1,X2,X3....Xn),Y=(Y1,Y2,Y3....Yn),如果我們再定義X與Y的內(nèi)積
那么這個N維空間就稱為歐幾里得空間。
內(nèi)積看著很眼熟吧?假設(shè)X為你的自身條件,Y為每個條件在女神心中的重要程度,那么X與Y的內(nèi)積直接決定了你追到女神的概率。
為了女神,我們應(yīng)該學會距離如何算,不過算距離的故事需要從1條人命說起,畢達哥拉斯發(fā)現(xiàn)了勾股定理(其實勾股定理更通用的名字是畢達哥拉斯定理),不過當他的學生問他一個長為1的正方形對角線多長時,畢達哥拉斯的表情是這樣的
然后他毫不猶豫的把該學生扔進了海里?。▊髡f如此,未經(jīng)嚴謹考證)此時眾人的表情是這樣的
注:畢達哥拉斯相信所有數(shù)都可以表示為兩個整數(shù)之比,不過根號二是個無理數(shù),此為第一次數(shù)學危機。
說完了人命的故事回到正題,勾股定理定理告訴我們:勾三股四弦五,那么平面上兩點的距離等于:
而把平面推廣一下,歐幾里得空間中距離等于,姑且就把他看作勾股定理一次次的套吧!
??先算個距離,再根據(jù)近朱者赤近墨者黑,判斷分類,最后取一個不明覺厲的名字——K近鄰算法(k-Nearest Neighbor),嗯,這就是今天的全部內(nèi)容。
? ?當然關(guān)于歐幾里得空間可以說的還有很多,比如什么:
施瓦茨不等式,cantor閉區(qū)域套定理,cauchy收斂原理,Bolzano-Weierstrass?定理....但是...管他的!誰在乎?
關(guān)注我們,獲取更多有關(guān) AI與大數(shù)據(jù)的信息。ASRay明日麗科技——科技助力企業(yè)發(fā)展,攜手共創(chuàng)更美明天!