Storms, G., De Boeck, P., & Ruts, W. (2000). Prototype and exemplar-based information in natural language categories.?Journal of Memory and Language,?42(1), 51-73
自然語言類別中的原型和基于范例的信息
摘要:本研究報告了兩個實驗,用范例模型和原型模型預測4個因變量的變化情況:典型性評分typicality ratings,反應時,分類命名頻率category-naming frequencies,自然語言概念的范例生成頻率exemplar-generation frequencies。實驗一中,范例模型預測得更好,或者兩個模型差異不大。實驗二中,范例模型對因變量的預測更好。
EXEMPLAR AND PROTOTYPE MODELS FOR ARTIFICIAL CATEGORIES AND NATURAL LANGUAGE CONCEPTS
自然情景下的分類學習和實驗室環(huán)境中的分類學習是有差別的,不能簡單地泛化實驗結(jié)果得到。和原型模型比起來,范例模型在模擬上有更多困難,因為無法確定每一個范例具體表示什么,(1)每一個范例表示一些抽象的表示(魚包括鯊魚,金魚等等,其中鯊魚、金魚也是抽象的表示)(2)每一個范例是具體記憶痕跡的表示,不帶有抽象表示(這一種解釋被更多研究者采納)。
在自然語言的環(huán)境中的分類,例如蔬菜,交通工具等等,有三種不同的理論觀點:
(1)沒有任何抽象:只記住了具體的例子,沒有任何抽象信息用言語概念記住了。
(2)有部分抽象,但只存在比學習概念第一級的概念上:學習蔬菜,下一級概念是番茄等等。
(3)有抽象,并且在學習的概念(蔬菜)本身的抽象特點就被記住了。
前兩種解釋可以標記為范例模型,第三種解釋可以標記為原型模型。
EXPERIMENT 1
典型性評分typicality ratings
原型:類別典型性的不同反映了原型與概念表示(concept representation)之間共有特征的相似性
范例:類別典型性的不同反映了與存儲的類別中樣本的相似性
反應時(在快速分類任務中的反應時)
在同一個類別中不同個體的反應時也是不同的,以下兩種模型都可以來解釋這種不同。
原型:(Hampton’s ,1979)當樣本的特征與原型特征重合達到一個閾值時,被試就會給出“是”的反應,反之,如果非匹配特征達到一個閾值,也會給出一個“否”的回答 。
范例:一個好的類別中的樣本是可以激活其他范例的,因此與存儲的范例越相似,反應時會越短。
分類命名頻率category-naming frequencies和自然語言概念的范例生成頻率exemplar-generation frequencies
這兩個頻率在某種程度上是相反的:在category-naming任務,給被試一些范例,要求被試為這些范例所屬的類別命名;在exemplar-generation任務,給被試類別的標簽,要求被試命名具體的范例。
在category-naming任務中,有些樣本會更大頻率被貼上某一類的標簽。原型模型可以解釋為給的樣本的特征可以激活類別原型的特征,從而讓被試想起類別的名字。范例模型可以解釋為類別與范例之間是具有概率性的。這兩種解釋的區(qū)別就在于之間是否有一個激活過程,但是激活過程的作用還不清楚,并且一個樣本可以和多個類別有聯(lián)系,這中間的重疊影響也沒有明確的處理辦法。
在exemplar-generation任務,同樣兩者的區(qū)別在于激活過程activation process,而這個過程在兩個模型中的解釋都不清晰,因此本實驗收集這兩個頻率,希望可以進一步幫忙開發(fā)模型。
Prototype and Exemplar Based Predictors
實驗一將原型模型的預測器和范例模型(可以用多個范例來實例化instantiate一個概念)的預測器相比較。雖然其中的激活過程難以觀察到,但是可以假定在exemplar-generation任務的結(jié)果中可以得出在抽樣分布上的近似值。同時,我們可以觀察不同數(shù)量的范例對預測的影響。
實驗用到的原型模型是在Hampton’s (1979)模型的基礎(chǔ)上衍生的,針對不同類別的特征會進行適用性applicability的評分,并根據(jù)評分預測被試相關(guān)的決策。
Material
所有概念都是荷蘭語,被試母語均為荷蘭語。一個8種常見分類:廚房用具,家具,交通工具,運動,水果,蔬菜,鳥,魚。每類包含36個項目(24個假定的exemplars,12個nonexemplars,這都是每個類別的上一級概念,例如水果的上一級概念是食物)。根據(jù)Hampton的研究,每個類別分別有13,11,12,14,13,9,16,和12個特征用來構(gòu)成類別的原型。
Procedure
兩個不同的任務給不同組別的被試:相似性評價任務(similarity rating task),特征適用性任務(feature applicability task)。同時還有四個任務用來測試上述4個因力量。
similarity rating task:被試拿到一共八張表(每個類別一張),被試需要評定每張表上的36個項目與1個關(guān)鍵詞之間的相似性,10分評定(1分完全沒有相似度-10分高度相似度)。每張表都會對應25個最常生成的范例,被試會隨機分到25個中的一個關(guān)鍵詞。該任務有250名大學生被試,用時大約30分鐘。
feature applicability task(Matrix Filling):被試拿到一張矩陣,行是36個項目,列是類別特征,要求被試用1或0填寫矩陣,表明這個特征是否存在于這個行項目中。80個被試,用時大約50分鐘。
Typicality-rating task:對八個類別的項目集進行典型性評分,7分評定法(-3表示非常不典型,+3表示很典型)。10個大學生被試,用時30分鐘。
Speeded categorization task:電腦上會出現(xiàn)一個類別名字(粗體在屏幕中央),項目的名字會出現(xiàn)在類別名字下面,被試需要快速并且正確地判斷項目是否屬于這個類別。一共9個類別(8個+1個練習),每個類別下有24個屬于,16個不屬于。18個被試,用時35-40分鐘。
Category naming task:每個被試拿到一張表,表上8個項目,要求被試寫下他最先想到的項目屬于的類別。一共有36張不同的8個項目表,每個清單都有10名被試完成。
Exemplar generation task:被試在小冊子上寫下每個類別中想到的10個例子,按想到的順序?qū)懴隆?/p>
Results
Prototype predictions

根據(jù)之前的矩陣任務,將10個被試的分數(shù)相加,可以得到特征的分數(shù),然后判斷該特征是否適用于這個類別。圖1 展示的是原始的直接相加,也有另外的加權(quán)相加,其中包括三種(1)基于定義概念時特征的重要性(2)基于特征的典型性(3)基于生成特征的頻率(production, generation)
Exemplar prediction
本研究想要嘗試不同數(shù)目范例的預測,比較不同范例個數(shù)可能帶來的影響。25個范例預測因子(exemplar predictors)基于產(chǎn)生頻率(generation frequency)進行排序。第一個預測器有簡單的一個范例構(gòu)成(與類別最相似)。第二個預測器是兩個范例的總和。其余預測因子是通過和剩下的產(chǎn)生頻率最高的范例添加相似度評分構(gòu)建的。
Prediction of the four dependent variables
原型模型和范例模型都與四種因變量相關(guān)。這種相關(guān)都是基于每類中的24個項目(剩下的12個非類內(nèi)成員被排除了),而被排除后,獲得高預測水平也會更加困難。最后通過預測水平來評估模型那個更有效。



從圖2可以發(fā)現(xiàn),范例個數(shù)越多,相關(guān)越高,但是10個以上更多范例增加對性能提升不明顯。同時典型性和反應時的模式非常相似,也預示著,兩者的相似性越高,反應時的數(shù)據(jù)越可靠。

表2的最后一列是范例模型和原型模型的相關(guān),發(fā)現(xiàn)有一些重疊,但是也不是完全不可區(qū)分。為了進一步分析,采用了ANOVA(方差分析)與split-plot factorial design(裂區(qū)設計),分析典型性預測最好,接下來是反應時,后面兩個頻率差異不顯著。范例模型和原型模型在exemplar-generation頻率上差異顯著,范例模型更好,其他相互作用上,只有典型性范例略好,其他差異不顯著。
Discussion
整體上,32個項目與4個因變量的相關(guān)都很高(除了1個),并且范例模型預測比原型模型表現(xiàn)更好。隨著范例個數(shù)增加,范例模型預測更好,但是超過10個,優(yōu)勢就不明顯。
雖然范例模型和原型模型有差異,但不是分成大的顯著,例如在典型性解釋上,范例模型預測水果,交通工具,與魚,原型模型預測家具更好,其他類別的差異并不顯著。
在category-naming任務上,兩種模型差異不顯著,但是在exemplar-generation任務上,范例模型表現(xiàn)更好。
在幾種不同的原型模型比較中,不加權(quán)的簡單加和模型預測最好,這個結(jié)果支持了1979年Hampton的研究。
實驗二想要探究,不同計算方式的原型模型(實驗一是Hampton(1979)(讓被試想出每個類別的特征,包括向被試提問,更多激發(fā)他們對類別特征的描述),實驗二是Rosch & Mervis (1975)(從類別中的例子出發(fā),從例子身上提取特征,然后特征適用于更多的例子就分數(shù)更高,權(quán)重更高))和范例模型比較,范例模型的微弱優(yōu)勢能不能保持。
EXPERIMENT 2
實驗二與實驗一大體一致,是將新的原型模型與實驗一的Hampton原型模型、實驗一的范例模型進行比較。
Material
類別與實驗一相同,但是只收集24個類內(nèi)項目的數(shù)據(jù),12個非類內(nèi)項目被刪除了。
Procedure
Attribute generation task:3個被試對5或6個類別中所有24個項目寫下特征,每一個類別都有兩個被試進行描述。
Attribute applicability judgment task:4個被試對每個類別中的24個項目和所有特征條目進行評定,每個類別完成后可休息,每個類別用時約25-50分鐘。
Results
Attribute generation task:55,55,73,53,33,37,26,36個特征生成對應水果,鳥,交通工具,運動,家具,魚,蔬菜,廚房用具。
Calculate the family resemblance scores:(1)將被試(一共4個)的選擇加起來(2)≥3的記為1,其余為0(3)每個屬性特征收到的權(quán)重1-24(4)加權(quán)后的和是每個屬性的得分



表4中新算法原型模型與4個因變量的相關(guān)比實驗一中的原型模型低一些。
同樣采用了ANOVA與split-plot factorial design進行分析,范例模型在預測上顯著優(yōu)于兩個原型模型,兩個原型模型間的差異不顯著。在四個因變量上,與實驗一相同,典型性>反應時>兩個頻率(類別命名和生成例子差異不顯著),并且每個因變量水平都是范例模型表現(xiàn)更好。
Discussion
范例模型比Rosch & Mervis (1975)的原型模型預測效果更好,也可以說范例模型中用到的加權(quán)方法比family resemblance measure要更好。
不同類別之間也有差異,鳥和交通工具可以被預測的更好,水果和蔬菜會更差,但是在ANOVA分析中差異并不顯著。
GENERAL DISCUSSION
原型模型認為概念是由單個向量表示的(包含了概念類別中的特征)。Hampton認為這些特征是存儲在概念層次,可以直接訪問的,因此在分類是可以直接提取特征,然后判斷項目是否符合這些特征;Rosch認為特征的提取應該從類型下的生成例子上開始,而不是直接運用概念標簽concept lable。
范例模型認為概念是多個向量表示的(每個范例對應一個向量)。
實驗數(shù)據(jù)也表明,即使是完全一樣的分類和特征標準,原型模型和范例模型也做不到預測完全一樣。(1)在實驗中,只有鳥和交通工具的方差高度相似,有些分類方差差異很大。(2)原型模型是把類別中所有的項目都考慮進去,但是實驗數(shù)據(jù)表明對于范例模型來說,超過10個范例,效果不會繼續(xù)變好,甚至會變差。(3)構(gòu)造一個新的范例模型,用到關(guān)于距離的方差,

Xim表示第m個特征對第i個項目的適用度。用這種計算后的新范例模型,預測效果不如直接評定的之前兩個實驗用到的范例模型。
之前的研究都認為,在完成分類任務時,所有之前學過的例子都會被激活,本實驗數(shù)據(jù)證明只有一部分頻繁生成的例子就足夠預測典型性評分,反應時等等,并且范例個數(shù)過多還會降低預測正確率。
研究的數(shù)據(jù)和自然狀態(tài)下概念的學習還是會有差距:(1)自然條件下的概念學習是多階段,重復不定時的,但是實驗室條件下是有規(guī)定是時間用來學習(2)實驗用到的概念都是很基礎(chǔ)的,可能在童年早期就學會的概念,被試已經(jīng)運用這些概念很多年了,因此激活或者存儲方式可能不同。
