我們一起玩AI(1)—— k近鄰算法與電影分類

5秒導(dǎo)讀:本文將介紹最簡單的機器學習算法——K近鄰算法,以及如何應(yīng)用k近鄰算法完成分類任務(wù)。并介紹新開大坑《我們一起玩AI》

某位名人曾經(jīng)說過:自己挖的大坑總要填上。

在之發(fā)布的文章《大數(shù)據(jù)AI改變生活——Logistic回歸告訴你追到女神的概率(上)》中曾說過要介紹Logistic回歸算法的原理,不過這并不是一件容易的事,其中涉及了太多數(shù)學知識,所以特別推出一個新系列《我們一起玩AI》,本系列將從基礎(chǔ)的數(shù)學開始講起。

別擔心——既然是玩,我們就不會把事情弄的復(fù)雜,所有數(shù)學內(nèi)容的講述都會犧牲一定嚴謹性,以便易理解。

傳說中換一個燈泡需要3個數(shù)學家,一個證明燈泡可換,一個證明可換的唯一性,最后一個負責推導(dǎo)一個算法來扭燈泡。

不過我們是鄙視鏈最底端的工程師!我們不搞證明,我們就是干!Just For Fun!

言歸正傳,開始今天的主題——?k近鄰算法

古人云:“近朱者赤近墨者黑”,k近鄰算法曰:離哪一群比較近就算作哪一類!

假設(shè)下圖中左下角的點為B類,右上角的點為A類,那么點E屬于哪一類?當然!B類,為啥?距離近?。]錯這就是我們的k近鄰算法!

讓我們從電影說起吧,比如動作電影普遍具有50次以上槍戰(zhàn)鏡頭,愛情電影普遍具有50次以上kiss鏡頭,電影A有76次槍戰(zhàn)2次kiss鏡頭,理所當然電影A是動作片,而電影V有66次槍戰(zhàn),62次Kiss電影V是?ASRay曰:

k近鄰將數(shù)據(jù)繪制在笛卡爾中,以上述的電影分類為例,橫坐標可以代表槍戰(zhàn)鏡頭出現(xiàn)的次數(shù),縱坐標則為kiss鏡頭出現(xiàn)的次數(shù)。

我們把比較集中的一簇表示一個分類(該過程可由K均值聚類完成)。

當需要判斷一個未知點X的分類時,1計算點X到所有點的距離并排序。2 找出其中距離X最近的K個點。3 判斷,如果前K個點中A類最多,那么X也為A類。

當然現(xiàn)實世界中的數(shù)據(jù),絕對不止2個維度那么簡單,比如一個人每天寫多少字,抽多少煙,玩多少分鐘游戲,走多少步路,吃幾碗飯.........不過沒關(guān)系一一寫出來就行,比如x=(X1,X2,X3....Xn),Y=(Y1,Y2,Y3....Yn),如果我們再定義X與Y的內(nèi)積

那么這個N維空間就稱為歐幾里得空間。

內(nèi)積看著很眼熟吧?假設(shè)X為你的自身條件,Y為每個條件在女神心中的重要程度,那么X與Y的內(nèi)積直接決定了你追到女神的概率。

為了女神,我們應(yīng)該學會距離如何算,不過算距離的故事需要從1條人命說起,畢達哥拉斯發(fā)現(xiàn)了勾股定理(其實勾股定理更通用的名字是畢達哥拉斯定理),不過當他的學生問他一個長為1的正方形對角線多長時,畢達哥拉斯的表情是這樣的

然后他毫不猶豫的把該學生扔進了海里?。▊髡f如此,未經(jīng)嚴謹考證)此時眾人的表情是這樣的

注:畢達哥拉斯相信所有數(shù)都可以表示為兩個整數(shù)之比,不過根號二是個無理數(shù),此為第一次數(shù)學危機。

說完了人命的故事回到正題,勾股定理定理告訴我們:勾三股四弦五,那么平面上兩點的距離等于:

而把平面推廣一下,歐幾里得空間中距離等于,姑且就把他看作勾股定理一次次的套吧!

??先算個距離,再根據(jù)近朱者赤近墨者黑,判斷分類,最后取一個不明覺厲的名字——K近鄰算法(k-Nearest Neighbor),嗯,這就是今天的全部內(nèi)容。

? ?當然關(guān)于歐幾里得空間可以說的還有很多,比如什么:

施瓦茨不等式,cantor閉區(qū)域套定理,cauchy收斂原理,Bolzano-Weierstrass?定理....但是...管他的!誰在乎?

關(guān)注我們,獲取更多有關(guān) AI與大數(shù)據(jù)的信息。ASRay明日麗科技——科技助力企業(yè)發(fā)展,攜手共創(chuàng)更美明天!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容