国产亚欧av在线观看,久久久亚洲色一区二区,97久久久久久久

Zubek, J., & Kuncheva, L. (2018). Learning from Exemplars and Prototypes in Machine Learning and Psychology.arXiv preprint arXiv:1806.01130.

本文比較了心理學(xué)中的分類模型和機(jī)器學(xué)習(xí)中的近鄰分類器(1-NN)，它們都是基于相似性的分類模型。在心理學(xué)領(lǐng)域中，范例模型和原型模型之間的爭(zhēng)論已經(jīng)很久了，最近人們開始混合兩種模型。在機(jī)器學(xué)習(xí)中，對(duì)于一個(gè)給定的訓(xùn)練集，機(jī)器學(xué)習(xí)通過一些方法生成參考集，最近鄰分類器使用這一參考集形成分類模型。比較這兩個(gè)領(lǐng)域的模型，機(jī)器學(xué)習(xí)和認(rèn)知心理學(xué)都可以從中獲得靈感，豐富基于相似性的模型庫(kù)。

1兩個(gè)領(lǐng)域的對(duì)應(yīng)術(shù)語(yǔ)和建模方法

1.1術(shù)語(yǔ)

下表介紹了在心理學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)中對(duì)于同一個(gè)概念的不同術(shù)語(yǔ)表達(dá)

（PS：模式識(shí)別：人給機(jī)器提供各種特征描述，讓機(jī)器對(duì)未知事物進(jìn)行判斷；機(jī)器學(xué)習(xí)：人給機(jī)器提供海量樣本，讓機(jī)器通過樣本來(lái)發(fā)現(xiàn)特征，然后對(duì)未知事物進(jìn)行判斷，更具體來(lái)講，就是機(jī)器從已知的經(jīng)驗(yàn)數(shù)據(jù)中，通過某種特定的方法（也就是算法），訓(xùn)練學(xué)習(xí)出一些規(guī)律（模型），根據(jù)提煉出的規(guī)律判斷未知事物。）

術(shù)語(yǔ)表

1.2 建模方法的比較

機(jī)器學(xué)習(xí)和認(rèn)知心理學(xué)的建模方法之間有相同之處，也有不同之處。

都基于相同的假設(shè)：任意刺激x都有n個(gè)維度特征，有空間Rn可以表示這些刺激；空間中，用距離反映相似度；有一個(gè)訓(xùn)練數(shù)據(jù)集（帶類別標(biāo)簽），包含N個(gè)刺激以及各刺激對(duì)應(yīng)的類別標(biāo)簽y。

第一個(gè)不同點(diǎn)就是x代表什么以及怎么獲得。在機(jī)器學(xué)習(xí)中，x是從分類問題中隨機(jī)抽取的，由于各類的問題是呈概率分布的，所以對(duì)于任意的x∈Rn，有一組與類別（Ω={ω1，...，ωc}）相關(guān)的概率，先驗(yàn)概率P(ωi)指x來(lái)自類別ωi的可能性；P(ωi|x)指x的真實(shí)類別是ωi的概率。在心理學(xué)中，x則由主試設(shè)計(jì)或選擇，沒有概率分布的特點(diǎn)，所屬的類別固定。

第二個(gè)不同點(diǎn)是“擬合模型”指什么。在機(jī)器學(xué)習(xí)中，指用數(shù)據(jù)集x訓(xùn)練分類器，經(jīng)過訓(xùn)練的分類器可以為空間Rn中的任意一點(diǎn)分配類別標(biāo)簽，理想情況下可以很好地估計(jì)后驗(yàn)概率。在認(rèn)知心理學(xué)中，用被試的分類結(jié)果擬合模型，將刺激x歸為類別ωi的概率計(jì)算如下：

M指總?cè)藬?shù)，mi指將x歸為ωi的人數(shù)。

第三個(gè)不同點(diǎn)是模型評(píng)估程序。在機(jī)器學(xué)習(xí)中，主要指標(biāo)是泛化精度(或稱測(cè)試精度)，給分類器新的測(cè)試數(shù)據(jù)集（帶類別標(biāo)簽），測(cè)量正確分類的百分比。在心理學(xué)中，往往用模型來(lái)擬合數(shù)據(jù)集，比較擬合結(jié)果和實(shí)際結(jié)果，指標(biāo)是擬合優(yōu)度，目的是解釋實(shí)驗(yàn)結(jié)果；不過，存在過擬合的風(fēng)險(xiǎn)，指該模型只對(duì)該數(shù)據(jù)集有效，無(wú)法推廣。

2從心理學(xué)角度看參考集S

（PS：到現(xiàn)在一共出現(xiàn)了三種數(shù)據(jù)集合，訓(xùn)練集，測(cè)試集，參考集。訓(xùn)練集就是用來(lái)學(xué)習(xí)訓(xùn)練的數(shù)據(jù)；測(cè)試集只在機(jī)器學(xué)習(xí)中有，它是不同于訓(xùn)練集的新的數(shù)據(jù)集合，目的是測(cè)試模型的泛化精度；參考集就是經(jīng)過算法計(jì)算后，遺留的構(gòu)成模型的數(shù)據(jù)。）

參考集S在心理學(xué)中的發(fā)展：原型模型假設(shè)參考集S只由原型組成，每個(gè)類別由一個(gè)原型來(lái)表示。范例模型假設(shè)參考集S由所有學(xué)過的范例組成。

原型模型和范例模型的支持者爭(zhēng)論了很久。范例模型的支持者認(rèn)為，如果只記住原型，就無(wú)法學(xué)習(xí)分散/復(fù)雜的類別結(jié)構(gòu)。對(duì)此，原型模型提出除了原型，記憶還存儲(chǔ)了一些額外的信息。

很多研究都表明范例模型比原型模型有更好的擬合度，但也有人認(rèn)為，實(shí)驗(yàn)中使用的人工類別與原型模型旨在解釋的自然類別非常不同，所得的結(jié)論在自然類別中不具推廣性。同時(shí)，范例模型也被認(rèn)為是低效的、不合理的，首先，人們不可能記住所有實(shí)例，并在分類中應(yīng)用，其次，范例模型不涉及抽象過程，可能會(huì)過擬合數(shù)據(jù)，泛化能力有缺陷。

不過，從數(shù)學(xué)的角度來(lái)講，這兩個(gè)模型非常相似，都是從例子中學(xué)習(xí)，唯一區(qū)別在于例子的數(shù)量。從這一角度看，兩種模型是可以統(tǒng)一的。神經(jīng)心理學(xué)的研究支持這一觀點(diǎn)。給被試展示來(lái)自不同類別的圖像，發(fā)現(xiàn)看到同一類別的圖像時(shí)，不論圖片典型或是不典型，大腦的激活模式均相同。

Machery(2011)認(rèn)為原型和范例是互補(bǔ)的，而不是相互排斥的。他建議研究在這兩種分類模式之間起中介作用的因素。Briscoe & Feldman(2011)論證了數(shù)據(jù)復(fù)雜性可能是一個(gè)中介因素。他們假設(shè)，人類會(huì)根據(jù)類別結(jié)構(gòu)的復(fù)雜性，調(diào)整心理表征的復(fù)雜性，以此實(shí)現(xiàn)泛化精度，而不是一個(gè)完美的訓(xùn)練精度。Smith(2014)也主張從泛化精度的角度分析類別表征，強(qiáng)調(diào)其對(duì)生存的進(jìn)化重要性。不同的分類模型在不同的環(huán)境中是最優(yōu)的。這就需要靈活和適應(yīng)性強(qiáng)的方法來(lái)構(gòu)造參考集S。

（PS：泛化精度和訓(xùn)練精度是機(jī)器學(xué)習(xí)中的概念，泛化精度是模型應(yīng)用于測(cè)試集的準(zhǔn)確度，訓(xùn)練精度是模型應(yīng)用于訓(xùn)練集的準(zhǔn)確度。）

3從機(jī)器學(xué)習(xí)角度看參考集S

在機(jī)器學(xué)習(xí)中，參考集的內(nèi)容被稱為原型（非原型模型的原型）。原型可以直接從訓(xùn)練集中選擇；也可以新生成非訓(xùn)練集的數(shù)據(jù)。不過，這些形成原型的方法，并不等同于人類的認(rèn)知過程。

首先介紹兩種早期方法：壓縮和錯(cuò)誤編輯，大致對(duì)應(yīng)范例和原型模型。

3.1原型選擇:壓縮

Hart提出Condensed Nearest Neighbour(CNN) ，它的作用是，對(duì)于一個(gè)數(shù)據(jù)集x（帶類別標(biāo)簽），CNN能夠找到最小的子集S，將S作為參考集，1-NN能正確分類x中所有對(duì)象，即達(dá)到100%訓(xùn)練精度。

3.2原型選擇：錯(cuò)誤編輯

錯(cuò)誤編輯的目的與壓縮不同，不是找到能達(dá)到100%訓(xùn)練精度的最小子集，而是清理潛在的“噪聲”對(duì)象，因?yàn)樵胍舻拇嬖跁?huì)影響1-NN的分類。Wilson提出算法Edited Nearest Neighbour(ENN)，其步驟如下，在刺激集x中找到對(duì)象j的k個(gè)相似對(duì)象，如果j被這k個(gè)對(duì)象錯(cuò)誤分類，那么刪去j，此步驟遍歷x中的所有對(duì)象，余下的就是參考集。

錯(cuò)誤編輯這一算法傾向于保留各類別的中心對(duì)象，刪除易產(chǎn)生噪音的邊界對(duì)象。它是一種抽象學(xué)習(xí)，因?yàn)楦暗湫汀钡姆独赡軙?huì)被保留，但不是合并到一個(gè)原型中。后續(xù)，錯(cuò)誤編輯算法被不斷完善，具有更好的泛化性能，能更好地消除參考集的冗余。

3.3原型選擇:混合策略和不可知策略

混合策略：混合策略融合了原型模型和范例模型。一種方法是先用錯(cuò)誤編輯算法清理邊界區(qū)域，然后用壓縮算法縮小參考集。例如，Wilson的方法，先清理了邊界，然后再減少冗余。

不可知策略：不可知策略是指該算法是由函數(shù)驅(qū)動(dòng)的，沒有實(shí)際上的意義，它不明確定義對(duì)象是邊界的或內(nèi)部的，也不在這兩者之間尋求平衡。參考集的挑選通過一個(gè)標(biāo)準(zhǔn)函數(shù)進(jìn)行，這個(gè)函數(shù)是

，其中E(S)指將S作為參考集時(shí)，1-NN分類器的錯(cuò)誤，|S|是參考集S的基數(shù)，N是數(shù)據(jù)集x的基數(shù)，λ是常數(shù)，用來(lái)平衡數(shù)據(jù)冗余和準(zhǔn)確性。隨機(jī)編輯就使用了這一策略，它適用于特征量少的小數(shù)據(jù)集，它生成T（T是固定常數(shù)）個(gè)基數(shù)為N的隨機(jī)子集，將這些子集作為參考集，計(jì)算J(S)，返回最佳子集。

3.4原型生成：聚類

假如參考集的選擇范圍不再局限于訓(xùn)練集x，而是可以指定Rn中的任意點(diǎn)，并選擇其類別。那么最簡(jiǎn)單的方法是聚類，其原型就是聚類中心。具體方法有兩種，第一種是從類別入手，在每個(gè)類別中選擇原型，然后將這些原型集中到一個(gè)集合中(前監(jiān)督方法)；第二種是從集群入手，對(duì)這個(gè)數(shù)據(jù)集進(jìn)行集群，根據(jù)集群中的主要類別，再為其分配類別標(biāo)簽并選擇原型(后監(jiān)督方法)。

（PS：監(jiān)督學(xué)習(xí)：提供訓(xùn)練數(shù)據(jù)，以及帶有標(biāo)簽的事件結(jié)果；非監(jiān)督學(xué)習(xí)：只提供數(shù)據(jù)訓(xùn)練數(shù)據(jù)，算法自動(dòng)發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部結(jié)構(gòu)；集群是非監(jiān)督學(xué)習(xí)算法的一種。沒有找到前監(jiān)督學(xué)習(xí)和后監(jiān)督學(xué)習(xí)的有關(guān)介紹）

3.5原型生成:學(xué)習(xí)向量量化(LVQ)

學(xué)習(xí)向量量化分類器(LVQ)在訓(xùn)練數(shù)據(jù)的引導(dǎo)下，通過微小的增量移動(dòng)來(lái)確定原型在空間中的位置。雖然這些原型傾向于將自己定位在概率分布模式中，但它們可能不是該類中最“原型化”的例子。（看完下文4.1RMC可以更好地理解“增量移動(dòng)”的意思，以及為什么不是最“原型化”）

（PS：學(xué)習(xí)向量量化(LVQ)屬于原型聚類，即試圖找到一組原型向量來(lái)聚類，每個(gè)原型向量代表一個(gè)簇，將空間劃分為若干個(gè)簇，從而對(duì)于任意的樣本，可以將它劃入到它距離最近的簇中，不同的是LVQ假設(shè)數(shù)據(jù)樣本帶有類別標(biāo)記，因此可以利用這些類別標(biāo)記來(lái)輔助聚類。）

4心理模型與原型生成方法的比較

本節(jié)鏈接了機(jī)器學(xué)習(xí)和心理學(xué)中尋找參考集S的方法。

下圖是兩個(gè)領(lǐng)域的方法的對(duì)應(yīng)關(guān)系

下面介紹與機(jī)器學(xué)習(xí)方法對(duì)應(yīng)的心理學(xué)部分。

4.1RMC

分類的理性模型(RMC)是最古老的模型之一。該模型中，數(shù)據(jù)集群以增量的方式進(jìn)行，新對(duì)象會(huì)被分配到最相似的集群，但若此對(duì)象與所有集群的相似度都低于閾值，就創(chuàng)建一個(gè)新的集群。耦合參數(shù)定義了能夠創(chuàng)建新集群的相似性閾值，故集群個(gè)數(shù)由該參數(shù)間接控制。

在RMC中，類別標(biāo)簽被視為一個(gè)屬性，是空間中的一個(gè)維度，這使得RMC與LVQ、兩種聚類方法類似，但并不完全相同。RMC與LVQ的相似之處在于聚類過程，都是迭代進(jìn)行的，結(jié)果取決于對(duì)象的呈現(xiàn)順序。

4.2MMC

混合分類模型(MMC)是聚類方法的直接實(shí)現(xiàn)，該方法通過高斯混合模型(GMM)進(jìn)行模糊聚類。該模型中，聚類既可以獨(dú)立于類別(后監(jiān)督)，也可以獨(dú)立于特定類別(前監(jiān)督）。聚類的數(shù)量事先確定。

4.3REX

分類的簡(jiǎn)化范例模型(The Reduced EXemplar model of categorisation，REX) 假設(shè)只有一些范例被保留在記憶中，相似范例要么遺忘，要么合并。記憶和遺忘將REX與原型選擇方法組聯(lián)系起來(lái)；合并將REX與原型生成組聯(lián)系起來(lái)，K-means聚類可用樣本替換聚類中心，從這個(gè)意義上說，REX與后監(jiān)督聚類有關(guān)。（這邊沒怎么看懂）

4.4SUSTAIN model

SUSTAIN model使用類似于RMC的迭代聚類過程。不同的是，在它的監(jiān)督版本中，當(dāng)對(duì)象被錯(cuò)誤分類時(shí)，就會(huì)形成新的聚類。換言之，聚類的數(shù)量是動(dòng)態(tài)的，取決于刺激的呈現(xiàn)順序。

與LVQ的相似點(diǎn)：過程是迭代的，在成功分類后轉(zhuǎn)移集群中心到同一集合；與LVQ的不同點(diǎn)：聚類個(gè)數(shù)不固定。與CNN相似點(diǎn)：聚類是動(dòng)態(tài)形成的，在CNN算法的內(nèi)部循環(huán)中，錯(cuò)誤分類的對(duì)象被添加到參考集中。

4.5VAM

在可變抽象模型(Varying Abstraction Model，VAM)中，聚類的概念范圍被擴(kuò)大到分區(qū)——即使例子彼此相距很遠(yuǎn)，并且被其他的例子分開，也可以被分組在一起。每個(gè)類別單獨(dú)形成分區(qū)。

VAM的作用是作為一種工具來(lái)分析實(shí)驗(yàn)結(jié)果，它在擬合過程中會(huì)徹底搜索所有可能分區(qū)，發(fā)現(xiàn)合理的表征，但不會(huì)模擬學(xué)習(xí)過程。從機(jī)器學(xué)習(xí)的角度來(lái)看，這使得它的泛化能力存在缺陷，因?yàn)樗赡軙?huì)傾向于過度擬合；而且，這種分析方法只適用于非常小的數(shù)據(jù)集。對(duì)于這些問題，有人提出新的版本，使用k-means來(lái)確定每個(gè)類別中的集群。這是聚類前監(jiān)督方法的直接實(shí)現(xiàn)，聚類的個(gè)數(shù)事先確定。

4.6 Rex Leopold I（看不懂）

5總結(jié)：

本文對(duì)機(jī)器學(xué)習(xí)中的原型選擇技術(shù)與心理學(xué)中的分類模型作了匹配，這種匹配可以豐富雙方的內(nèi)容。

對(duì)心理學(xué)來(lái)說，提出了兩個(gè)可能感興趣的問題。第一，1-NN(基于原型/實(shí)例選擇)的成功，為統(tǒng)一原型模型和范例模型的理論提供了依據(jù)，表明人類的分類模型中存在可變的抽象量。第二，分類模型的泛化能力非常重要，但經(jīng)常被忽視。

對(duì)機(jī)器學(xué)習(xí)來(lái)說，機(jī)器學(xué)習(xí)和模式識(shí)別沒有給出足夠的理論解釋，經(jīng)常被指責(zé)為“黑匣子”。將心理學(xué)的理論見解整合到方法和算法中，可能會(huì)在一定程度上改善這一情況。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

心理學(xué)和機(jī)器學(xué)習(xí)中分類模型的比較

心理學(xué)和機(jī)器學(xué)習(xí)中分類模型的比較

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

心理學(xué)和機(jī)器學(xué)習(xí)中分類模型的比較

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av