cs231n #1: KNearestNeighbor (KNN) 最鄰近算法

? ? ? ? KNN算法又稱最鄰近算法,其核心思想是用待分類的數(shù)據(jù)與已知的數(shù)據(jù)進(jìn)行一一比較,從所有已知數(shù)據(jù)中選出最相似的K個(gè)數(shù)據(jù),在這最相似的K個(gè)數(shù)據(jù)中,哪一類的個(gè)數(shù)最多我們就判定未知數(shù)據(jù)屬于哪一類。通俗來講假設(shè)我們已經(jīng)知道有一百人的人臉信息分屬于三個(gè)地區(qū),這時(shí)新來了一個(gè)人讓你去判斷他最可能來自哪個(gè)地區(qū),KNN就是用這一個(gè)未知地區(qū)信息的人去和那一百個(gè)已知地區(qū)信息的人進(jìn)行比對(duì),從一百個(gè)里選出K個(gè)最像的人出來,假設(shè)這K個(gè)人中五個(gè)來自地區(qū)1,一個(gè)來自地區(qū)2,一個(gè)來自地區(qū)3,那么我們就判定這個(gè)人是來自地區(qū)1的。

? ? ? ? 所以KNN可以簡(jiǎn)化為以下兩步:

? ? ? ? 1.?將待判斷的未知數(shù)據(jù)樣本和所有已知數(shù)據(jù)樣本進(jìn)行比較,選出最相似的K個(gè)

? ? ? ? 2.?從K個(gè)結(jié)果中進(jìn)行投票,選出票數(shù)最多的結(jié)果作為預(yù)測(cè)結(jié)果

距離度量(Distance Metric)來比較圖片

? ? ? ? 在計(jì)算機(jī)中,圖像可以表示為矩陣數(shù)據(jù)的形式,那么我們對(duì)兩張圖片的比較實(shí)際是對(duì)兩個(gè)矩陣進(jìn)行比較。KNN中非常關(guān)鍵的一步是對(duì)圖像進(jìn)行比較來判斷兩張圖片的相似程度,那么我們比較的方法實(shí)際是采用距離度量的方法,距離值的大與小就表示兩張圖片的相似程度。

? ? ? ? 距離的計(jì)算有兩種計(jì)算公式,一種是Manhattan距離(L1 distance),一種是Euclidean距離(L2 distance)

? ? ? ? 通常采用的是L2 distance作為距離度量的方法,但具體選用L1還是L2應(yīng)該依據(jù)使用的場(chǎng)景來進(jìn)行選擇,他們兩的選擇會(huì)影響訓(xùn)練出的分類器的準(zhǔn)確率。

超參數(shù)K的選取

? ? ? ? 超參數(shù)是指需要預(yù)先設(shè)定,不能從數(shù)據(jù)中習(xí)得的參數(shù),比如這里的K。K的具體取值同樣也會(huì)影響最后分類器的準(zhǔn)確性。K的選取是調(diào)參的過程,我們使用一部分?jǐn)?shù)據(jù)進(jìn)行分類器的訓(xùn)練,再用一部分?jǐn)?shù)據(jù)去測(cè)試該K下的準(zhǔn)確性,調(diào)制K的值重復(fù)這一過程,只至選取一個(gè)準(zhǔn)確度最高的K。在實(shí)際應(yīng)用中,我們希望的是能夠用已知訓(xùn)練數(shù)據(jù)集得到的分類器去判斷位置的數(shù)據(jù)的結(jié)果,并且這一結(jié)果具有高的準(zhǔn)確度,所以在測(cè)試的時(shí)候我們還會(huì)準(zhǔn)備一部分?jǐn)?shù)據(jù)作為測(cè)試數(shù)據(jù)來判斷這一分類器的表現(xiàn)。綜上我們會(huì)將數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)(train),調(diào)試數(shù)據(jù)(validation),測(cè)試數(shù)據(jù)(test)這三部分。

? ? ? ? 還有一種交叉驗(yàn)證的方法是將數(shù)據(jù)分為多份(fold)和一個(gè)測(cè)試數(shù)據(jù)(test),取其中的幾份作為訓(xùn)練數(shù)據(jù),一份作為調(diào)試數(shù)據(jù)。比如fold1,2,3,4作為test,fold5作為validation。也可以讓fold4作為validation,其余的作為test,這樣可以進(jìn)行交叉驗(yàn)證。不變的是只有當(dāng)你的所有參數(shù)調(diào)整完以后才可以用test數(shù)據(jù)去測(cè)試結(jié)果的好壞。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容