機(jī)器學(xué)習(xí)中,K近鄰用于分類。如果把圖像看成是像素點(diǎn)組成的一個(gè)矩陣,則也可以用K近鄰做分類。
K近鄰中涉及的兩個(gè)參數(shù):(1)距離選擇,用L1還是L2,或者其他?(2)K的取值?這兩個(gè)參數(shù)稱為超參數(shù)(hpyer parameters),需要在模型訓(xùn)練時(shí)做出選擇。
L1距離,又稱為Manhattan距離,是兩點(diǎn)之間的差的絕對(duì)值。L2距離,又稱為歐氏距離,是兩點(diǎn)之間差的平方開平方根的結(jié)果。
Q1:如果用L2距離,模型在訓(xùn)練集上的準(zhǔn)確率如何?A1:accuracy=100%
Q2:模型在訓(xùn)練集上的準(zhǔn)確率如何?A2:not sure. (之前有做過測(cè)試,第一反應(yīng)是肯定是100%,因?yàn)橛?xùn)練集上的數(shù)據(jù)已經(jīng)用于訓(xùn)練了,再把它拿來測(cè)試,相當(dāng)于考試出的題目是題庫里一模一樣的題,必定答對(duì)……直到實(shí)驗(yàn)過后,才發(fā)現(xiàn)并不一定能達(dá)到100%的準(zhǔn)確率)
Q3:如何設(shè)置超參數(shù)(best distance? best value of k?)?A3:problem-dependent。窮舉所有的K,選擇達(dá)到最高準(zhǔn)確率的那一個(gè)K值??梢詫?duì)訓(xùn)練集做交叉驗(yàn)證,不允許在測(cè)試集上調(diào)參。
在實(shí)際應(yīng)用中,并不使用KNN做圖像分類,原因:(1)在測(cè)試集上的效果不好;(2)不同測(cè)試集計(jì)算出的距離可能相同,也就是說距離并不能作為區(qū)分不同類別的依據(jù)。