Zubek, J., & Kuncheva, L. (2018). Learning from Exemplars and Prototypes in Machine Learning and Psychology.arXiv preprint arXiv:1806.01130.
本文比較了心理學(xué)中的分類模型和機(jī)器學(xué)習(xí)中的近鄰分類器(1-NN),它們都是基于相似性的分類模型。在心理學(xué)領(lǐng)域中,范例模型和原型模型之間的爭(zhēng)論已經(jīng)很久了,最近人們開始混合兩種模型。在機(jī)器學(xué)習(xí)中,對(duì)于一個(gè)給定的訓(xùn)練集,機(jī)器學(xué)習(xí)通過一些方法生成參考集,最近鄰分類器使用這一參考集形成分類模型。比較這兩個(gè)領(lǐng)域的模型,機(jī)器學(xué)習(xí)和認(rèn)知心理學(xué)都可以從中獲得靈感,豐富基于相似性的模型庫(kù)。
1兩個(gè)領(lǐng)域的對(duì)應(yīng)術(shù)語(yǔ)和建模方法
1.1術(shù)語(yǔ)
下表介紹了在心理學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)中對(duì)于同一個(gè)概念的不同術(shù)語(yǔ)表達(dá)
(PS:模式識(shí)別:人給機(jī)器提供各種特征描述,讓機(jī)器對(duì)未知事物進(jìn)行判斷;機(jī)器學(xué)習(xí):人給機(jī)器提供海量樣本,讓機(jī)器通過樣本來(lái)發(fā)現(xiàn)特征,然后對(duì)未知事物進(jìn)行判斷,更具體來(lái)講,就是機(jī)器從已知的經(jīng)驗(yàn)數(shù)據(jù)中,通過某種特定的方法(也就是算法),訓(xùn)練學(xué)習(xí)出一些規(guī)律(模型),根據(jù)提煉出的規(guī)律判斷未知事物。)

1.2 建模方法的比較
機(jī)器學(xué)習(xí)和認(rèn)知心理學(xué)的建模方法之間有相同之處,也有不同之處。
都基于相同的假設(shè):任意刺激x都有n個(gè)維度特征,有空間Rn可以表示這些刺激;空間中,用距離反映相似度;有一個(gè)訓(xùn)練數(shù)據(jù)集(帶類別標(biāo)簽),包含N個(gè)刺激以及各刺激對(duì)應(yīng)的類別標(biāo)簽y。
第一個(gè)不同點(diǎn)就是x代表什么以及怎么獲得。在機(jī)器學(xué)習(xí)中,x是從分類問題中隨機(jī)抽取的,由于各類的問題是呈概率分布的,所以對(duì)于任意的x∈Rn,有一組與類別(Ω={ω1,...,ωc})相關(guān)的概率,先驗(yàn)概率P(ωi)指x來(lái)自類別ωi的可能性;P(ωi|x)指x的真實(shí)類別是ωi的概率。在心理學(xué)中,x則由主試設(shè)計(jì)或選擇,沒有概率分布的特點(diǎn),所屬的類別固定。
第二個(gè)不同點(diǎn)是“擬合模型”指什么。在機(jī)器學(xué)習(xí)中,指用數(shù)據(jù)集x訓(xùn)練分類器,經(jīng)過訓(xùn)練的分類器可以為空間Rn中的任意一點(diǎn)分配類別標(biāo)簽,理想情況下可以很好地估計(jì)后驗(yàn)概率。 在認(rèn)知心理學(xué)中,用被試的分類結(jié)果擬合模型,將刺激x歸為類別ωi的概率計(jì)算如下:

M指總?cè)藬?shù),mi指將x歸為ωi的人數(shù)。
第三個(gè)不同點(diǎn)是模型評(píng)估程序。在機(jī)器學(xué)習(xí)中,主要指標(biāo)是泛化精度(或稱測(cè)試精度),給分類器新的測(cè)試數(shù)據(jù)集(帶類別標(biāo)簽),測(cè)量正確分類的百分比。在心理學(xué)中,往往用模型來(lái)擬合數(shù)據(jù)集,比較擬合結(jié)果和實(shí)際結(jié)果,指標(biāo)是擬合優(yōu)度,目的是解釋實(shí)驗(yàn)結(jié)果;不過,存在過擬合的風(fēng)險(xiǎn),指該模型只對(duì)該數(shù)據(jù)集有效,無(wú)法推廣。
2從心理學(xué)角度看參考集S
(PS:到現(xiàn)在一共出現(xiàn)了三種數(shù)據(jù)集合,訓(xùn)練集,測(cè)試集,參考集。訓(xùn)練集就是用來(lái)學(xué)習(xí)訓(xùn)練的數(shù)據(jù);測(cè)試集只在機(jī)器學(xué)習(xí)中有,它是不同于訓(xùn)練集的新的數(shù)據(jù)集合,目的是測(cè)試模型的泛化精度;參考集就是經(jīng)過算法計(jì)算后,遺留的構(gòu)成模型的數(shù)據(jù)。)
參考集S在心理學(xué)中的發(fā)展:原型模型假設(shè)參考集S只由原型組成,每個(gè)類別由一個(gè)原型來(lái)表示。范例模型假設(shè)參考集S由所有學(xué)過的范例組成。
原型模型和范例模型的支持者爭(zhēng)論了很久。范例模型的支持者認(rèn)為,如果只記住原型,就無(wú)法學(xué)習(xí)分散/復(fù)雜的類別結(jié)構(gòu)。對(duì)此,原型模型提出除了原型,記憶還存儲(chǔ)了一些額外的信息。
很多研究都表明范例模型比原型模型有更好的擬合度,但也有人認(rèn)為,實(shí)驗(yàn)中使用的人工類別與原型模型旨在解釋的自然類別非常不同,所得的結(jié)論在自然類別中不具推廣性。同時(shí),范例模型也被認(rèn)為是低效的、不合理的,首先,人們不可能記住所有實(shí)例,并在分類中應(yīng)用,其次,范例模型不涉及抽象過程,可能會(huì)過擬合數(shù)據(jù),泛化能力有缺陷。
不過,從數(shù)學(xué)的角度來(lái)講,這兩個(gè)模型非常相似,都是從例子中學(xué)習(xí),唯一區(qū)別在于例子的數(shù)量。從這一角度看,兩種模型是可以統(tǒng)一的。神經(jīng)心理學(xué)的研究支持這一觀點(diǎn)。給被試展示來(lái)自不同類別的圖像,發(fā)現(xiàn)看到同一類別的圖像時(shí),不論圖片典型或是不典型,大腦的激活模式均相同。
Machery(2011)認(rèn)為原型和范例是互補(bǔ)的,而不是相互排斥的。他建議研究在這兩種分類模式之間起中介作用的因素。Briscoe & Feldman(2011)論證了數(shù)據(jù)復(fù)雜性可能是一個(gè)中介因素。他們假設(shè),人類會(huì)根據(jù)類別結(jié)構(gòu)的復(fù)雜性,調(diào)整心理表征的復(fù)雜性,以此實(shí)現(xiàn)泛化精度,而不是一個(gè)完美的訓(xùn)練精度。Smith(2014)也主張從泛化精度的角度分析類別表征,強(qiáng)調(diào)其對(duì)生存的進(jìn)化重要性。不同的分類模型在不同的環(huán)境中是最優(yōu)的。這就需要靈活和適應(yīng)性強(qiáng)的方法來(lái)構(gòu)造參考集S。
(PS:泛化精度和訓(xùn)練精度是機(jī)器學(xué)習(xí)中的概念,泛化精度是模型應(yīng)用于測(cè)試集的準(zhǔn)確度,訓(xùn)練精度是模型應(yīng)用于訓(xùn)練集的準(zhǔn)確度。)
3從機(jī)器學(xué)習(xí)角度看參考集S
在機(jī)器學(xué)習(xí)中,參考集的內(nèi)容被稱為原型(非原型模型的原型)。原型可以直接從訓(xùn)練集中選擇;也可以新生成非訓(xùn)練集的數(shù)據(jù)。不過,這些形成原型的方法,并不等同于人類的認(rèn)知過程。
首先介紹兩種早期方法:壓縮和錯(cuò)誤編輯,大致對(duì)應(yīng)范例和原型模型。
3.1原型選擇:壓縮
Hart提出Condensed Nearest Neighbour(CNN) ,它的作用是,對(duì)于一個(gè)數(shù)據(jù)集x(帶類別標(biāo)簽),CNN能夠找到最小的子集S,將S作為參考集,1-NN能正確分類x中所有對(duì)象,即達(dá)到100%訓(xùn)練精度。
3.2原型選擇:錯(cuò)誤編輯
錯(cuò)誤編輯的目的與壓縮不同,不是找到能達(dá)到100%訓(xùn)練精度的最小子集,而是清理潛在的“噪聲”對(duì)象,因?yàn)樵胍舻拇嬖跁?huì)影響1-NN的分類。Wilson提出算法Edited Nearest Neighbour(ENN),其步驟如下,在刺激集x中找到對(duì)象j的k個(gè)相似對(duì)象,如果j被這k個(gè)對(duì)象錯(cuò)誤分類,那么刪去j,此步驟遍歷x中的所有對(duì)象,余下的就是參考集。
錯(cuò)誤編輯這一算法傾向于保留各類別的中心對(duì)象,刪除易產(chǎn)生噪音的邊界對(duì)象。它是一種抽象學(xué)習(xí),因?yàn)楦暗湫汀钡姆独赡軙?huì)被保留,但不是合并到一個(gè)原型中。后續(xù),錯(cuò)誤編輯算法被不斷完善,具有更好的泛化性能,能更好地消除參考集的冗余。
3.3原型選擇:混合策略和不可知策略
混合策略:混合策略融合了原型模型和范例模型。一種方法是先用錯(cuò)誤編輯算法清理邊界區(qū)域,然后用壓縮算法縮小參考集。例如,Wilson的方法,先清理了邊界,然后再減少冗余。
不可知策略:不可知策略是指該算法是由函數(shù)驅(qū)動(dòng)的,沒有實(shí)際上的意義,它不明確定義對(duì)象是邊界的或內(nèi)部的,也不在這兩者之間尋求平衡。參考集的挑選通過一個(gè)標(biāo)準(zhǔn)函數(shù)進(jìn)行,這個(gè)函數(shù)是

,其中E(S)指將S作為參考集時(shí),1-NN分類器的錯(cuò)誤,|S|是參考集S的基數(shù),N是數(shù)據(jù)集x的基數(shù),λ是常數(shù),用來(lái)平衡數(shù)據(jù)冗余和準(zhǔn)確性。隨機(jī)編輯就使用了這一策略,它適用于特征量少的小數(shù)據(jù)集,它生成T(T是固定常數(shù))個(gè)基數(shù)為N的隨機(jī)子集,將這些子集作為參考集,計(jì)算J(S),返回最佳子集。
3.4原型生成:聚類
假如參考集的選擇范圍不再局限于訓(xùn)練集x,而是可以指定Rn中的任意點(diǎn),并選擇其類別。那么最簡(jiǎn)單的方法是聚類,其原型就是聚類中心。具體方法有兩種,第一種是從類別入手,在每個(gè)類別中選擇原型,然后將這些原型集中到一個(gè)集合中(前監(jiān)督方法);第二種是從集群入手,對(duì)這個(gè)數(shù)據(jù)集進(jìn)行集群,根據(jù)集群中的主要類別,再為其分配類別標(biāo)簽并選擇原型(后監(jiān)督方法)。
(PS:監(jiān)督學(xué)習(xí):提供訓(xùn)練數(shù)據(jù),以及帶有標(biāo)簽的事件結(jié)果;非監(jiān)督學(xué)習(xí):只提供數(shù)據(jù)訓(xùn)練數(shù)據(jù),算法自動(dòng)發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部結(jié)構(gòu);集群是非監(jiān)督學(xué)習(xí)算法的一種。沒有找到前監(jiān)督學(xué)習(xí)和后監(jiān)督學(xué)習(xí)的有關(guān)介紹)
3.5原型生成:學(xué)習(xí)向量量化(LVQ)
學(xué)習(xí)向量量化分類器(LVQ)在訓(xùn)練數(shù)據(jù)的引導(dǎo)下,通過微小的增量移動(dòng)來(lái)確定原型在空間中的位置。雖然這些原型傾向于將自己定位在概率分布模式中,但它們可能不是該類中最“原型化”的例子。(看完下文4.1RMC可以更好地理解“增量移動(dòng)”的意思,以及為什么不是最“原型化”)
(PS:學(xué)習(xí)向量量化(LVQ)屬于原型聚類,即試圖找到一組原型向量來(lái)聚類,每個(gè)原型向量代表一個(gè)簇,將空間劃分為若干個(gè)簇,從而對(duì)于任意的樣本,可以將它劃入到它距離最近的簇中,不同的是LVQ假設(shè)數(shù)據(jù)樣本帶有類別標(biāo)記,因此可以利用這些類別標(biāo)記來(lái)輔助聚類。)
4心理模型與原型生成方法的比較
本節(jié)鏈接了機(jī)器學(xué)習(xí)和心理學(xué)中尋找參考集S的方法。
下圖是兩個(gè)領(lǐng)域的方法的對(duì)應(yīng)關(guān)系

下面介紹與機(jī)器學(xué)習(xí)方法對(duì)應(yīng)的心理學(xué)部分。
4.1RMC
分類的理性模型(RMC)是最古老的模型之一。該模型中,數(shù)據(jù)集群以增量的方式進(jìn)行,新對(duì)象會(huì)被分配到最相似的集群,但若此對(duì)象與所有集群的相似度都低于閾值,就創(chuàng)建一個(gè)新的集群。耦合參數(shù)定義了能夠創(chuàng)建新集群的相似性閾值,故集群個(gè)數(shù)由該參數(shù)間接控制。
在RMC中,類別標(biāo)簽被視為一個(gè)屬性,是空間中的一個(gè)維度,這使得RMC與LVQ、兩種聚類方法類似,但并不完全相同。RMC與LVQ的相似之處在于聚類過程,都是迭代進(jìn)行的,結(jié)果取決于對(duì)象的呈現(xiàn)順序。
4.2MMC
混合分類模型(MMC)是聚類方法的直接實(shí)現(xiàn),該方法通過高斯混合模型(GMM)進(jìn)行模糊聚類。該模型中,聚類既可以獨(dú)立于類別(后監(jiān)督),也可以獨(dú)立于特定類別(前監(jiān)督)。聚類的數(shù)量事先確定。
4.3REX
分類的簡(jiǎn)化范例模型(The Reduced EXemplar model of categorisation,REX) 假設(shè)只有一些范例被保留在記憶中,相似范例要么遺忘,要么合并。記憶和遺忘將REX與原型選擇方法組聯(lián)系起來(lái);合并將REX與原型生成組聯(lián)系起來(lái),K-means聚類可用樣本替換聚類中心,從這個(gè)意義上說,REX與后監(jiān)督聚類有關(guān)。(這邊沒怎么看懂)
4.4SUSTAIN model
SUSTAIN model使用類似于RMC的迭代聚類過程。不同的是,在它的監(jiān)督版本中,當(dāng)對(duì)象被錯(cuò)誤分類時(shí),就會(huì)形成新的聚類。換言之,聚類的數(shù)量是動(dòng)態(tài)的,取決于刺激的呈現(xiàn)順序。
與LVQ的相似點(diǎn):過程是迭代的,在成功分類后轉(zhuǎn)移集群中心到同一集合;與LVQ的不同點(diǎn):聚類個(gè)數(shù)不固定。與CNN相似點(diǎn):聚類是動(dòng)態(tài)形成的,在CNN算法的內(nèi)部循環(huán)中,錯(cuò)誤分類的對(duì)象被添加到參考集中。
4.5VAM
在可變抽象模型(Varying Abstraction Model,VAM)中,聚類的概念范圍被擴(kuò)大到分區(qū)——即使例子彼此相距很遠(yuǎn),并且被其他的例子分開,也可以被分組在一起。每個(gè)類別單獨(dú)形成分區(qū)。
VAM的作用是作為一種工具來(lái)分析實(shí)驗(yàn)結(jié)果,它在擬合過程中會(huì)徹底搜索所有可能分區(qū),發(fā)現(xiàn)合理的表征,但不會(huì)模擬學(xué)習(xí)過程。從機(jī)器學(xué)習(xí)的角度來(lái)看,這使得它的泛化能力存在缺陷,因?yàn)樗赡軙?huì)傾向于過度擬合;而且,這種分析方法只適用于非常小的數(shù)據(jù)集。對(duì)于這些問題,有人提出新的版本,使用k-means來(lái)確定每個(gè)類別中的集群。這是聚類前監(jiān)督方法的直接實(shí)現(xiàn),聚類的個(gè)數(shù)事先確定。
4.6 Rex Leopold I(看不懂)
5總結(jié):
本文對(duì)機(jī)器學(xué)習(xí)中的原型選擇技術(shù)與心理學(xué)中的分類模型作了匹配,這種匹配可以豐富雙方的內(nèi)容。
對(duì)心理學(xué)來(lái)說,提出了兩個(gè)可能感興趣的問題。第一,1-NN(基于原型/實(shí)例選擇)的成功,為統(tǒng)一原型模型和范例模型的理論提供了依據(jù),表明人類的分類模型中存在可變的抽象量。第二,分類模型的泛化能力非常重要,但經(jīng)常被忽視。
對(duì)機(jī)器學(xué)習(xí)來(lái)說,機(jī)器學(xué)習(xí)和模式識(shí)別沒有給出足夠的理論解釋,經(jīng)常被指責(zé)為“黑匣子”。將心理學(xué)的理論見解整合到方法和算法中,可能會(huì)在一定程度上改善這一情況。