大語言模型的涌現(xiàn)能力

Emergent Abilities of Large Language Models

https://arxiv.org/abs/2206.07682

Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, William Fedus

[Google Research, Stanford University, UNC Chapel Hill, DeepMind]

擴(kuò)展語言模型已被證明可以在廣泛的下游任務(wù)中可預(yù)測(cè)地提高性能和樣本效率。相反,本文討論了一種不可預(yù)測(cè)的現(xiàn)象,我們稱之為大型語言模型的涌現(xiàn)能力。如果一種能力不存在于較小的模型中,但存在于較大的模型中時(shí),我們認(rèn)為它是涌現(xiàn)的。因此,不能簡單地通過外推較小模型的性能來預(yù)測(cè)涌現(xiàn)能力。這種出現(xiàn)意味著額外的擴(kuò)展可以進(jìn)一步擴(kuò)大語言模型的能力范圍。

近年來,語言模型已經(jīng)徹底改變了自然語言處理(NLP)。眾所周知,增加語言模型的規(guī)模(例如,訓(xùn)練計(jì)算、模型參數(shù)等)可以在一系列下游NLP任務(wù)上帶來更好的性能和樣本效率(Devlin等人,2019;Brown等人,2020等)。在許多情況下,縮放對(duì)性能的影響通??梢酝ㄟ^縮放定律進(jìn)行方法預(yù)測(cè)——例如,交叉熵?fù)p失的縮放曲線已被證明在經(jīng)驗(yàn)上跨越了七個(gè)數(shù)量級(jí)以上(Kaplan等人,2020;Hoffmann等人,2022)。另一方面,某些下游任務(wù)的性能似乎并沒有隨著規(guī)模的變化而持續(xù)改善,而且這些任務(wù)無法提前預(yù)測(cè)(Ganguli等人,2022)。

在本文中,我們將討論大型語言模型涌現(xiàn)能力的不可預(yù)測(cè)現(xiàn)象。作為一種概念的出現(xiàn)在物理學(xué)、生物學(xué)和計(jì)算機(jī)科學(xué)等領(lǐng)域已經(jīng)討論了很長時(shí)間(Anderson,1972;Hwang等人,2012年;Forrest,1990年;Corradini和O’Connor,2010年;Harper和Lewis,2012年,內(nèi)部)。我們將考慮以下對(duì)涌現(xiàn)的一般定義,該定義改編自斯坦哈特(Steinhardt,2022),源于諾貝爾獎(jiǎng)獲得者物理學(xué)家菲利普·安德森(Philip Anderson,1972)1972年的一篇題為《更多是不同的》的文章:

涌現(xiàn)是指系統(tǒng)中的數(shù)量變化導(dǎo)致行為發(fā)生質(zhì)的變化。

在這里,我們將探討模型規(guī)模的出現(xiàn),通過訓(xùn)練計(jì)算和模型參數(shù)的數(shù)量來衡量。具體來說,我們將大型語言模型的涌現(xiàn)能力定義為不存在于較小規(guī)模模型中但存在于大型模型中的能力;因此,不能通過簡單地外推小規(guī)模模型的性能改進(jìn)來預(yù)測(cè)它們(§2)。1我們調(diào)查了在一系列先前工作中觀察到的涌現(xiàn)能力,并將其分類為few-shot提示(§3)和增強(qiáng)提示策略(§4)。涌現(xiàn)激發(fā)了未來對(duì)為什么獲得這種能力以及更多的擴(kuò)展是否會(huì)導(dǎo)致進(jìn)一步涌現(xiàn)能力的研究,我們強(qiáng)調(diào)這是該領(lǐng)域的重要問題(§5)

2涌現(xiàn)能力定義

作為一個(gè)寬泛的概念,涌現(xiàn)經(jīng)常被非正式地使用,可以用許多不同的方式進(jìn)行合理的解釋。在本文中,我們將考慮大型語言模型的涌現(xiàn)能力的一個(gè)重點(diǎn)定義:

如果一種能力不存在于較小的模型中,但存在于較大的模型中時(shí),它就會(huì)出現(xiàn)。

通過從小規(guī)模模型中外推比例定律(即一致的性能改進(jìn)),無法直接預(yù)測(cè)涌現(xiàn)能力。當(dāng)通過縮放曲線(x軸:模型縮放,y軸:性能)進(jìn)行可視化時(shí),涌現(xiàn)能力顯示出一種清晰的模式——性能幾乎是隨機(jī)的,直到達(dá)到某個(gè)縮放的臨界閾值,之后性能顯著提高到隨機(jī)以上。這種質(zhì)的變化也被稱為相變——整體行為的急劇變化,這是通過檢查較小規(guī)模的系統(tǒng)所無法預(yù)見的(Huberman&Hogg,1987)。

今天的語言模型主要根據(jù)三個(gè)因素進(jìn)行縮放:計(jì)算量、模型參數(shù)數(shù)量和訓(xùn)練數(shù)據(jù)集大?。↘aplan等人,2020;Hoffmann等人,2022)。在本文中,我們將通過繪制不同模型的性能來分析縮放曲線,其中每個(gè)模型的訓(xùn)練計(jì)算是以x軸上的FLOP測(cè)量的(Hoffmann等人,2022)。因?yàn)橛酶嘤?jì)算訓(xùn)練的語言模型往往也有更多的參數(shù),我們?cè)诟戒汥中額外顯示了以模型參數(shù)數(shù)量為x軸的圖(見圖11和圖12,以及圖4和圖10)。使用訓(xùn)練FLOP或模型參數(shù)作為x軸產(chǎn)生具有相似形狀的曲線,這是因?yàn)榇蠖鄶?shù)密集的Transformer語言模型族具有與模型參數(shù)大致成比例的縮放訓(xùn)練計(jì)算(Kaplan等人,2020)。

訓(xùn)練數(shù)據(jù)集大小也是一個(gè)重要因素,但我們沒有針對(duì)它繪制能力圖,因?yàn)樵S多語言模型族對(duì)所有模型大小使用固定數(shù)量的訓(xùn)練示例(Brown等人,2020;Rae等人,2021;Chowdhery等人,2022)。盡管我們?cè)谶@里關(guān)注的是訓(xùn)練計(jì)算和模型大小,但并沒有一個(gè)代理能夠充分捕捉規(guī)模的所有方面。例如,Chinchilla(Hoffmann等人,2022)的參數(shù)是Gopher(Rae等人,2021)的四分之一,但使用類似的訓(xùn)練計(jì)算;專家模型的稀疏混合在每次訓(xùn)練/推理計(jì)算中比密集模型具有更多的參數(shù)(Fedus等人,2021;Du等人,2021)??偟膩碚f,將涌現(xiàn)視為許多相關(guān)變量的函數(shù)可能是明智的。例如,在圖4的后面,我們還將繪制作為WikiText103困惑函數(shù)的出現(xiàn)圖(Merity et al.,2016),這恰好與Gopher/Chinchilla的訓(xùn)練計(jì)算密切相關(guān)(盡管這種相關(guān)性可能不會(huì)長期保持)。

請(qǐng)注意,首先觀察到能力出現(xiàn)的程度取決于許多因素,而不是能力的不變性質(zhì)。例如,對(duì)于在更高質(zhì)量數(shù)據(jù)上訓(xùn)練的模型,可能出現(xiàn)較少的訓(xùn)練計(jì)算或較少的模型參數(shù)。相反,涌現(xiàn)能力也主要取決于其他因素,例如不受數(shù)據(jù)量、數(shù)據(jù)質(zhì)量或模型中參數(shù)數(shù)量的限制。今天的語言模型可能沒有得到最佳訓(xùn)練(Hoffmann et al.,2022),我們對(duì)如何最好地訓(xùn)練模型的理解將隨著時(shí)間的推移而發(fā)展。我們?cè)谶@篇論文中的目標(biāo)不是描述或聲稱需要一個(gè)特定的量表來觀察涌現(xiàn)能力,而是我們旨在討論先前工作中涌現(xiàn)行為的例子。

3few-shot提示任務(wù)

我們首先討論了GPT-3推廣的提示范式中的涌現(xiàn)能力(Brown et al.,2020)。2在提示中,預(yù)先訓(xùn)練的語言模型被給予任務(wù)的提示(例如自然語言指令),并在沒有任何進(jìn)一步訓(xùn)練或參數(shù)梯度更新的情況下完成響應(yīng)。Brown等人(2020)提出了few-shot提示,在要求模型執(zhí)行一個(gè)看不見的推理時(shí)間示例的任務(wù)之前,在模型的上下文(輸入)中包括一些輸入輸出示例作為前導(dǎo)。一個(gè)示例提示如圖1所示。當(dāng)模型在一定范圍內(nèi)具有隨機(jī)性能時(shí),通過少量鏡頭提示執(zhí)行任務(wù)的能力就會(huì)出現(xiàn),之后性能會(huì)提高到遠(yuǎn)高于隨機(jī)性。圖2顯示了來自不同工作的跨越五個(gè)語言模型族的八種這樣的涌現(xiàn)能力。

BIG-Bench。

圖2A–D描述了BIG Bench的四個(gè)涌現(xiàn)的few-shot提示任務(wù),BIG Bencht是一個(gè)由200多個(gè)語言模型評(píng)估基準(zhǔn)組成的眾包套件(BIG Benk,2022)。圖2A顯示了一個(gè)測(cè)試3位數(shù)加法和減法以及2位數(shù)乘法的算術(shù)基準(zhǔn)。GPT-3和LaMDA(Thoppilan et al.,2022)在幾個(gè)數(shù)量級(jí)的訓(xùn)練計(jì)算中具有接近零的性能,之后性能急劇上升到隨機(jī)之上,GPT-3的訓(xùn)練FLOP為21022個(gè)(13B參數(shù)),LaMDA的訓(xùn)練FLOp為1023個(gè)(68B參數(shù))。對(duì)于其他任務(wù),類似的涌現(xiàn)行為也發(fā)生在大致相同的模型縮放上,例如從國際音標(biāo)中音譯(圖2B)、從其加擾字母中恢復(fù)單詞(圖2C)和波斯語問答(圖2D)。附錄E中給出了BIG Bench的更多涌現(xiàn)能力。

TruthfulQA。

圖2E顯示了在TruthfulQA基準(zhǔn)上,few-shot提示的表現(xiàn),該基準(zhǔn)衡量真實(shí)回答問題的能力(Lin et al.,2021)。該基準(zhǔn)是針對(duì)GPT-3模型進(jìn)行對(duì)抗性策劃的,即使縮放到最大的模型大小,GPT-3的性能也不會(huì)超過隨機(jī)性。小型Gopher模型也不會(huì)執(zhí)行高于隨機(jī)的性能,直到放大到最大的模型51023個(gè)訓(xùn)練FLOP(280B參數(shù)),其性能跳到高于隨機(jī)的20%以上(Rae等人,2021)。

Grounded conceptual mappings。

圖2F顯示了基礎(chǔ)概念映射的任務(wù),其中語言模型必須學(xué)會(huì)映射概念域,例如在文本網(wǎng)格世界中表示的基本方向(Patel&Pavlick,2022)。同樣,使用最大的GPT-3模型,性能只會(huì)跳到隨機(jī)以上。

多任務(wù)語言理解。

圖2G顯示了大規(guī)模多任務(wù)語言理解(MMLU)基準(zhǔn),該基準(zhǔn)匯集了57項(xiàng)測(cè)試,涵蓋了一系列主題,包括數(shù)學(xué)、歷史、法律等(Hendrycks et al.,2021a)。對(duì)于GPT-3、Gopher和Chinchilla,~1022個(gè)訓(xùn)練FLOP(~10B參數(shù))或更小的模型在所有主題上的平均表現(xiàn)都不如猜測(cè),擴(kuò)展到3–51023個(gè)訓(xùn)練FLOPs(70B–280B參數(shù))可以使性能大大超過隨機(jī)。這一結(jié)果令人震驚,因?yàn)樗赡芤馕吨?,解決跨越大量主題集合的基于知識(shí)的問題的能力可能需要擴(kuò)展到超過這一閾值(對(duì)于沒有檢索或訪問外部內(nèi)存的密集語言模型)。

圖2:在few-shot提示設(shè)置中出現(xiàn)的八個(gè)示例。每個(gè)點(diǎn)都是一個(gè)單獨(dú)的模型。當(dāng)語言模型在一定范圍內(nèi)達(dá)到隨機(jī)性能時(shí),通過少量鏡頭提示執(zhí)行任務(wù)的能力就會(huì)出現(xiàn),之后性能顯著提高到遠(yuǎn)高于隨機(jī)。請(qǐng)注意,使用更多訓(xùn)練計(jì)算的模型通常也有更多的參數(shù)——因此,我們?cè)趫D11中顯示了一個(gè)具有多個(gè)模型參數(shù)的類似圖,而不是將FLOP訓(xùn)練為x軸。A-D:BIG Bench(2022),2張照片。E: Lin等人(2021)和Rae等人(2021年)。F: Patel&Pavlick(2022)。G: Hendrycks等人(2021a)、Rae等人(2021)和Hoffmann等人(2022)。H: Brown等人(2020)、Hoffmann等人(2022)和Chowdhery等人(2022年)關(guān)于WiC基準(zhǔn)(Pilehvar和Camacho-Collados,2019)。

上下文中的單詞。

最后,圖2H顯示了上下文中的單詞(WiC)基準(zhǔn)(Pilehvar&CamachoCollados,2019),這是一個(gè)語義理解基準(zhǔn)。值得注意的是,GPT-3和Chinchilla無法實(shí)現(xiàn)比隨機(jī)更好的一次性性能,即使將其擴(kuò)展到其最大的模型大小~5.1023 FLOP。盡管到目前為止的這些結(jié)果可能表明,單獨(dú)的縮放可能無法使模型解決WiC,但當(dāng)PaLM縮放到2.51024 FLOP(540B參數(shù))時(shí),最終出現(xiàn)了上述隨機(jī)性能,這比GPT-3和Chinchilla大得多。

4增強(qiáng)提示策略

盡管few-shot提示可能是目前與大型語言模型交互最常見的方式,但最近的工作提出了其他幾種提示和微調(diào)策略,以進(jìn)一步增強(qiáng)語言模型的能力。如果與在應(yīng)用于足夠大的模型之前不使用該技術(shù)的基線相比,該技術(shù)沒有顯示出任何改進(jìn)或有害,我們也認(rèn)為該技術(shù)是一種新興能力。

圖3:專門的提示或微調(diào)方法可能會(huì)出現(xiàn),因?yàn)樗鼈冊(cè)谝欢ǖ哪P鸵?guī)模之前不會(huì)產(chǎn)生積極影響。A: Wei等人(2022b)。B: Wei等人(2022a)。C: Nye等人(2021)。D: Kadavath等人(2022)。圖12中給出了一個(gè)類似的圖,其中x軸上有多個(gè)參數(shù),而不是訓(xùn)練FLOP。A-C中所示的模型是LaMDA(Thoppilan等人,2022),D中所示模型來自Anthropic。

多步驟推理。

推理任務(wù),尤其是涉及多個(gè)步驟的推理任務(wù),對(duì)更廣泛的語言模型和NLP模型來說是具有挑戰(zhàn)性的(Rae等人,2021;Bommasani等人,2021年;Nye等人,2020)。最近一種被稱為思維鏈提示的提示策略使語言模型能夠通過引導(dǎo)它們?cè)诮o出最終答案之前產(chǎn)生一系列中間步驟來解決這些問題(Cobbe等人,2021;Wei等人,2022b;Suzgun等人,2022)。如圖3A所示,當(dāng)縮放到1023個(gè)訓(xùn)練FLOP(~100B參數(shù))時(shí),思想鏈提示僅超過標(biāo)準(zhǔn)提示,而沒有中間步驟。當(dāng)用最終答案后的解釋來增加很少的射門提示時(shí),也觀察到了類似的表現(xiàn)提升(Lampinen等人,2022)。

說明如下。

另一項(xiàng)不斷增長的工作旨在更好地使語言模型能夠通過閱讀描述任務(wù)的指令來執(zhí)行新任務(wù)(而不需要few-shot示例)。通過對(duì)被表述為指令的混合任務(wù)進(jìn)行微調(diào),語言模型已被證明對(duì)描述看不見的任務(wù)的指令做出了適當(dāng)?shù)捻憫?yīng)(Ouyang et al.,2022;Wei等人,2022a;Sanh等人,2022;Chung等人,2022)。如圖3B所示,Wei等人(2022a)發(fā)現(xiàn),這種指令微調(diào)技術(shù)會(huì)影響71021訓(xùn)練FLOP(8B參數(shù))或更小的模型的性能,并且僅當(dāng)擴(kuò)展到1023個(gè)訓(xùn)練FLOP(~100B參數(shù))時(shí)才提高性能(盡管Sanh等人(2022)不久后發(fā)現(xiàn),這種指令跟隨行為也可能由微調(diào)較小的編碼器-解碼器T5模型引起)。

程序執(zhí)行。

考慮涉及多個(gè)步驟的計(jì)算任務(wù),例如添加大量數(shù)字或執(zhí)行計(jì)算機(jī)程序。Nye等人(2021)表明,微調(diào)語言模型以預(yù)測(cè)中間輸出(“草稿”)使其能夠成功執(zhí)行此類多步驟計(jì)算。如圖3C所示,在8位數(shù)加法中,使用草稿欄只對(duì)~9·1019訓(xùn)練FLOP(40M參數(shù))或更大的型號(hào)有幫助。

模型校準(zhǔn)。

最后,語言模型研究的一個(gè)重要方向是校準(zhǔn),它衡量模型是否能夠預(yù)測(cè)他們能夠正確回答哪些問題。Kadavath等人(2022)比較了兩種測(cè)量校準(zhǔn)的方法:真/假技術(shù),模型首先提出答案,然后評(píng)估其答案正確的概率“P(真)”,以及更標(biāo)準(zhǔn)的校準(zhǔn)方法,與其他答案選項(xiàng)相比,使用正確答案的概率。如圖3D所示,只有當(dāng)縮放到訓(xùn)練FLOP(52B參數(shù))的最大模型規(guī)模時(shí),真/假技術(shù)的優(yōu)勢(shì)才會(huì)顯現(xiàn)出來。

表1:大型語言模型的涌現(xiàn)能力列表和涌現(xiàn)能力的規(guī)模(包括訓(xùn)練FLOP和模型參數(shù)的數(shù)量)。

5討論

我們已經(jīng)看到,到目前為止,只有在足夠大的語言模型上進(jìn)行評(píng)估時(shí),才能觀察到一系列能力——在few-shot提示設(shè)置或其他方面。因此,不能通過簡單地外推較小規(guī)模模型的性能來預(yù)測(cè)它們的出現(xiàn)。涌現(xiàn)的few-shot提示任務(wù)也是不可預(yù)測(cè)的,因?yàn)檫@些任務(wù)沒有明確包括在預(yù)訓(xùn)練中,而且我們可能不知道語言模型可以執(zhí)行的few-shot提示任務(wù)的全部范圍。這就提出了一個(gè)問題,即進(jìn)一步的擴(kuò)展是否有可能賦予更大的語言模型新的涌現(xiàn)能力。語言模型目前無法完成的任務(wù)是未來出現(xiàn)的主要候選任務(wù);例如,BIG Bench中有幾十項(xiàng)任務(wù),即使是最大的GPT-3和PaLM模型也無法實(shí)現(xiàn)上述隨機(jī)性能(見附錄E.4)。

規(guī)模不可預(yù)測(cè)地啟用新技術(shù)的能力不僅僅是理論上的。以圖2H所示的上下文中的單詞(WiC)基準(zhǔn)為例(Pilehvar&Camacho-Collados,2019)。在這里,將GPT-3擴(kuò)展到31023左右的訓(xùn)練FLOP(175B參數(shù))未能解鎖上述隨機(jī)一次性提示性能。3關(guān)于這一負(fù)面結(jié)果,Brown等人(2020)引用了GPT-3的模型架構(gòu)或使用自回歸語言建模目標(biāo)(而不是使用去噪訓(xùn)練目標(biāo))作為潛在原因,并建議訓(xùn)練具有雙向架構(gòu)的可比較大小的模型作為補(bǔ)救措施。然而,后來的工作發(fā)現(xiàn),進(jìn)一步擴(kuò)展僅限解碼器的語言模型實(shí)際上足以實(shí)現(xiàn)該任務(wù)的上述隨機(jī)性能。如圖2H所示,將PaLM(Chowdhery等人,2022)從31023個(gè)訓(xùn)練FLOP(62B參數(shù))擴(kuò)展到31024個(gè)訓(xùn)練FLOPs(540B參數(shù))導(dǎo)致性能顯著提升,而沒有Brown等人提出的重大架構(gòu)變化。(2020)。

5.1出現(xiàn)的潛在解釋

盡管涌現(xiàn)能力的例子有幾十個(gè),但目前很少有令人信服的解釋來解釋為什么這些能力會(huì)以這種方式出現(xiàn)。對(duì)于某些任務(wù),可能有自然的直覺來解釋為什么涌現(xiàn)需要一個(gè)大于特定閾值縮放的模型。例如,如果一個(gè)多步驟推理任務(wù)需要l個(gè)步驟的順序計(jì)算,這可能需要一個(gè)深度至少為O(l)層的模型。同樣合理的假設(shè)是,更多的參數(shù)和更多的訓(xùn)練可以更好地記憶,這可能有助于完成需要世界知識(shí)的任務(wù)。4例如,封閉式問答的良好性能可能需要一個(gè)具有足夠參數(shù)的模型來捕獲壓縮的知識(shí)庫本身(盡管基于語言的壓縮器可以比傳統(tǒng)壓縮器具有更高的壓縮比(Bellard,2021))。

考慮用于衡量涌現(xiàn)能力的評(píng)估指標(biāo)也很重要(BIG Bench,2022)。例如,使用精確的字符串匹配作為長序列目標(biāo)的評(píng)估度量可能會(huì)將復(fù)合增量改進(jìn)偽裝為出現(xiàn)。類似的邏輯可能適用于多步驟或算術(shù)推理問題,其中模型只根據(jù)多步驟問題的最終答案是否正確來評(píng)分,而不考慮部分正確的解決方案。然而,最終答案準(zhǔn)確性的躍升并不能解釋為什么中間步驟的質(zhì)量突然變得高于隨機(jī)性,并且使用不給予部分信任的評(píng)估指標(biāo)充其量是一個(gè)不完整的解釋,因?yàn)樵谠S多分類任務(wù)(例如,圖2D–H中的任務(wù))中仍然觀察到涌現(xiàn)能力。

作為一種替代評(píng)估,我們測(cè)量了六個(gè)涌現(xiàn)BIG Bench任務(wù)的交叉熵?fù)p失,該損失用于預(yù)訓(xùn)練的比例律,如附錄A所示。該分析遵循了BIG Bench2022的相同實(shí)驗(yàn)設(shè)置,并確認(rèn)了他們對(duì)我們考慮的六個(gè)涌現(xiàn)任務(wù)的結(jié)論。也就是說,即使對(duì)于下游度量(精確匹配、BLEU和精度)接近隨機(jī)且沒有改善的小模型縮放,交叉熵?fù)p失也會(huì)改善,這表明目標(biāo)序列的對(duì)數(shù)似然性的改善可以被這種下游度量掩蓋。然而,這一分析并沒有解釋為什么下游指標(biāo)會(huì)出現(xiàn),也沒有使我們能夠預(yù)測(cè)出現(xiàn)的規(guī)模??偟膩碚f,還需要做更多的工作來梳理是什么使規(guī)模能夠解鎖涌現(xiàn)能力。

5.2超越規(guī)模

盡管我們可能會(huì)觀察到一種涌現(xiàn)能力在一定規(guī)模上發(fā)生,但這種能力后來可能會(huì)在較小規(guī)模上實(shí)現(xiàn)——換句話說,模型規(guī)模并不是釋放涌現(xiàn)能力的唯一因素。隨著訓(xùn)練大型語言模型的科學(xué)進(jìn)步,對(duì)于具有新架構(gòu)、更高質(zhì)量數(shù)據(jù)或改進(jìn)的訓(xùn)練程序的較小模型,某些能力可能會(huì)被解鎖。例如,存在LaMDA 137B和GPT-3 175B模型幾乎隨機(jī)執(zhí)行的14個(gè)BIG Bench任務(wù)5,但事實(shí)上,盡管具有較少的模型參數(shù)和訓(xùn)練FLOP,但PaLM 62B實(shí)現(xiàn)了以上隨機(jī)性能。雖然沒有實(shí)證研究消除PaLM 62B和先前模型之間的所有差異(計(jì)算成本太高),但PaLM性能更好的潛在原因可能包括高質(zhì)量的訓(xùn)練數(shù)據(jù)(例如,比LaMDA更多的多語言和代碼數(shù)據(jù))和架構(gòu)差異(例如,分位數(shù)編碼;見Chowdhery等人(2022)第2節(jié))。解鎖涌現(xiàn)的另一種潛在方法是通過不同的預(yù)訓(xùn)練目標(biāo)——Tay等人(2022c)表明,在混合去噪器目標(biāo)上的計(jì)算高效的持續(xù)預(yù)訓(xùn)練階段(Tay等人,2022a)能夠在幾個(gè)BIG Bench任務(wù)上實(shí)現(xiàn)涌現(xiàn)性能。

此外,一旦發(fā)現(xiàn)了一種能力,進(jìn)一步的研究可能會(huì)使這種能力適用于較小規(guī)模的模型。考慮使語言模型能夠遵循描述任務(wù)的自然語言指令的新生方向(Wei et al.,2022a;Sanh et al.,2022;歐陽等人,2022等)。盡管Wei等人(2022a)最初發(fā)現(xiàn)基于指令的微調(diào)僅適用于68B參數(shù)或更大的僅解碼器模型,但Sanh等人(2022)在具有編碼器-解碼器架構(gòu)的11B模型中誘導(dǎo)了類似的行為,該架構(gòu)在微調(diào)后通常比僅解碼器架構(gòu)具有更高的性能(Wang等人,2022a)。另一個(gè)例子是,歐陽等人(2022)為InstructGPT模型提出了一種從人類反饋中進(jìn)行微調(diào)和強(qiáng)化學(xué)習(xí)的方法,這使得1.3B模型在廣泛的用例集上的人類評(píng)分評(píng)估中優(yōu)于更大的模型。

也有人致力于提高語言模型的一般few-shot提示能力(Gao et al.,2021;Schick&Schütze,2021等)。關(guān)于語言建模目標(biāo)為什么促進(jìn)某些下游行為的理論和可解釋性研究(Wei et al.,2021a;Saunshi et al.,2021)反過來可能會(huì)對(duì)如何實(shí)現(xiàn)超越簡單規(guī)模的涌現(xiàn)產(chǎn)生影響。例如,預(yù)訓(xùn)練數(shù)據(jù)的某些特征(例如,長程一致性,具有許多罕見類別)也已被證明與涌現(xiàn)的few-shot提示相關(guān),并可能在較小的模型中實(shí)現(xiàn)(Xie等人,2022;Chan等人,2022),在某些場(chǎng)景中,few-shot學(xué)習(xí)可能需要特定的模型架構(gòu)(Chan et al.,2022)。計(jì)算語言學(xué)的工作進(jìn)一步表明,當(dāng)模型參數(shù)和訓(xùn)練FLOP保持不變時(shí),訓(xùn)練數(shù)據(jù)的閾值頻率如何激活涌現(xiàn)的句法規(guī)則學(xué)習(xí)(Wei et al.,2021b),這甚至被證明具有類似于心理語言學(xué)文獻(xiàn)中的驚人“啊哈”時(shí)刻(Abend et al.,2017;張等人,2021)。隨著我們繼續(xù)訓(xùn)練語言模型,降低涌現(xiàn)能力的量表閾值對(duì)于更廣泛地向社區(qū)提供對(duì)這些能力的研究將變得更加重要(Bommasani等人,2021;Ganguli等人,2022;梁等人,2022)。

自然,僅由不斷增加的規(guī)模(訓(xùn)練計(jì)算、模型參數(shù)和數(shù)據(jù)集大小)組成的程序存在局限性。例如,縮放最終可能會(huì)受到硬件限制,一些能力可能在這一點(diǎn)上還沒有出現(xiàn)。其他能力可能永遠(yuǎn)不會(huì)出現(xiàn)——例如,即使是一個(gè)非常大的訓(xùn)練數(shù)據(jù)集,也可能永遠(yuǎn)無法實(shí)現(xiàn)任何顯著的性能。最后,一種能力可能出現(xiàn),然后趨于平穩(wěn);換句話說,不能保證縮放能夠達(dá)到所需的水平。

5.3出現(xiàn)的另一種觀點(diǎn)

盡管到目前為止,規(guī)模(例如,訓(xùn)練FLOP或模型參數(shù))在許多下游指標(biāo)上與語言模型性能高度相關(guān),但規(guī)模不一定是觀察涌現(xiàn)能力的唯一視角。例如,任務(wù)特定能力的出現(xiàn)可以作為語言模型在一般文本語料庫(如WikiText103)上的困惑的函數(shù)進(jìn)行分析(Merity et al.,2016)。圖4顯示了這樣一個(gè)圖,其中x軸上是語言模型的WikiText103困惑,y軸上是MMLU基準(zhǔn)測(cè)試的性能,x軸上則是訓(xùn)練FLOP和模型參數(shù)的圖。

因?yàn)閃ikiText103的困惑和訓(xùn)練FLOP恰好與這里考慮的模型(Gopher和Chinchilla)高度相關(guān),所以兩者的涌現(xiàn)能力圖看起來相似。然而,隨著香草密集Transformer模型之外的新技術(shù)的發(fā)展,WikiText103困惑和規(guī)模之間的這種相關(guān)性在未來可能不會(huì)成立(例如,檢索增強(qiáng)模型可能具有較強(qiáng)的WikiText103困擾,訓(xùn)練計(jì)算較少,模型參數(shù)較少(Borgeud et al.,2021))。還要注意的是,由于訓(xùn)練數(shù)據(jù)組成的差異等因素,使用WikiText103困惑在模型族之間進(jìn)行比較可能會(huì)很復(fù)雜??偟膩碚f,涌現(xiàn)能力可能應(yīng)該被視為許多相關(guān)變量的函數(shù)。

5.4涌現(xiàn)風(fēng)險(xiǎn)

重要的是,類似于在沒有明確納入預(yù)訓(xùn)練的情況下,在few-shot提示環(huán)境中觀察到的涌現(xiàn)能力,風(fēng)險(xiǎn)也可能出現(xiàn)(Bommasani等人,2021;Steinhardt,2021;Ganguli等人,2022)。例如,大型語言模型的社會(huì)風(fēng)險(xiǎn),如真實(shí)性、偏見和毒性,是一個(gè)日益增長的研究領(lǐng)域(Weidinger等人,2021)。這些風(fēng)險(xiǎn)是重要的考慮因素,無論它們是否可以根據(jù)§2中的定義準(zhǔn)確地描述為“涌現(xiàn)”,并且在某些情況下,確實(shí)會(huì)隨著模型規(guī)模的增加而增加(見逆比例獎(jiǎng)6)。由于對(duì)涌現(xiàn)能力的研究激勵(lì)了語言模型的擴(kuò)展,因此重要的是要意識(shí)到隨著模型擴(kuò)展而增加的風(fēng)險(xiǎn),即使這些風(fēng)險(xiǎn)不是涌現(xiàn)的。

在此,我們總結(jié)了先前關(guān)于特定社會(huì)風(fēng)險(xiǎn)與模型規(guī)模之間關(guān)系的幾項(xiàng)研究結(jié)果。關(guān)于WinoGender(Rudinger et al.,2017),它測(cè)量了“護(hù)士”或“電工”等職業(yè)中的性別偏見,到目前為止,縮放已經(jīng)提高了性能(Du et al.,2021;Chowdhery et al.,2022),盡管BIG Bench(2022)在BBQ偏見基準(zhǔn)(Parrish et al.,2020)中發(fā)現(xiàn),在模棱兩可的情況下,偏見會(huì)隨著縮放而增加。至于毒性,Askell等人(2021)發(fā)現(xiàn),雖然更大的語言模型可以從RealToxicityPrompts數(shù)據(jù)集中產(chǎn)生更有毒的反應(yīng)(Gehman等人,2020),但通過給模型提示“有用、無害和誠實(shí)”的例子,可以減輕這種行為,發(fā)現(xiàn)較大的模型更有可能記憶訓(xùn)練數(shù)據(jù)(Carlini等人,2021;2022),盡管已經(jīng)提出了重復(fù)數(shù)據(jù)消除方法,并且可以在提高性能的同時(shí)減少記憶(Kandpal等人,2022;Lee等人,2022a)。TruthfulQA基準(zhǔn)(Lin et al.,2021)表明,隨著GPT-3模型變得越來越大,它們更有可能模仿人類的謊言,盡管Rae et al.(2021)后來在多項(xiàng)選擇版本中表明,將Gopher擴(kuò)展到280B可以使涌現(xiàn)性能大大好于隨機(jī)。

除此之外,涌現(xiàn)風(fēng)險(xiǎn)還包括可能只存在于未來語言模型中或尚未在當(dāng)前語言模型中表征的現(xiàn)象。Hendrycks等人(2021b)詳細(xì)討論了一些此類行為,這些行為可能是后門漏洞、無意欺騙或有害內(nèi)容合成。已經(jīng)提出了涉及數(shù)據(jù)過濾、預(yù)測(cè)、治理和自動(dòng)發(fā)現(xiàn)有害行為的方法,以發(fā)現(xiàn)和減輕涌現(xiàn)風(fēng)險(xiǎn)(Bender等人,2021;Weidinger等人,2021年;Steinhardt,2021;Ganguli等人,2022;Perez等人,2022等)。有關(guān)大型語言模型的風(fēng)險(xiǎn)(包括涌現(xiàn)風(fēng)險(xiǎn))的更詳細(xì)討論,請(qǐng)參見Bender等人(2021);Steinhardt(2021);Bommasani等人(2021);Ganguli等人(2022)。

圖4:頂行:Chinchilla和Gopher在WikiText103(Merity et al.,2016)上訓(xùn)練FLOP、模型參數(shù)和困惑(ppl)之間的關(guān)系。最底層:大規(guī)模多任務(wù)語言理解基準(zhǔn)測(cè)試(MMLU;Hendrycks等人,2021a)的總體性能,作為訓(xùn)練FLOP、模型參數(shù)和WikiText103困惑的函數(shù)。

5.5社會(huì)學(xué)變化

最后,這里討論的涌現(xiàn)能力集中在模型行為上,只是NLP中幾種涌現(xiàn)類型之一(Manning等人,2020;Teehan等人,2022)。另一種值得注意的質(zhì)的變化是社會(huì)學(xué),在社會(huì)學(xué)中,規(guī)模的增加改變了社區(qū)對(duì)語言模型的看法和使用方式。例如,NLP歷來專注于特定任務(wù)的模型(Jurafsky和Martin,2009)。最近,縮放導(dǎo)致了對(duì)“通用”模型的研究和開發(fā)的激增,因?yàn)樗鼈兪菃蝹€(gè)模型,旨在執(zhí)行訓(xùn)練數(shù)據(jù)中未明確編碼的一系列任務(wù)(例如,GPT-3、Chinchilla和PaLM)(Manning,2022)。

在社會(huì)學(xué)向通用模型的突然轉(zhuǎn)變中,一組關(guān)鍵的結(jié)果是,當(dāng)縮放使few-shot提示的通用模型優(yōu)于微調(diào)的特定任務(wù)模型所擁有的現(xiàn)有技術(shù)時(shí)。作為幾個(gè)例子,GPT-3 175B在TriviaQA和PiQA問答基準(zhǔn)上實(shí)現(xiàn)了新的技術(shù)狀態(tài)(Brown等人,2020);PaLM 540B在三個(gè)算術(shù)推理基準(zhǔn)上實(shí)現(xiàn)了新的技術(shù)水平(Chowdhery等人,2022);多模態(tài)火烈鳥80B模型在六個(gè)視覺問答基準(zhǔn)上實(shí)現(xiàn)了新的技術(shù)水平(Alayrac等人,2022)。在所有這些情況下,最先進(jìn)的性能都是通過few-shot來實(shí)現(xiàn)的,提示了一個(gè)前所未有規(guī)模的語言模型(這些示例的縮放曲線如附錄圖13所示)。這些能力并不一定是突然出現(xiàn)的,因?yàn)樗鼈兙哂衅交?、可預(yù)測(cè)的比例曲線——然而,它們確實(shí)強(qiáng)調(diào)了NLP社區(qū)中向通用模型的社會(huì)學(xué)轉(zhuǎn)變。

僅舉幾個(gè)例子,通用模型能夠執(zhí)行看不見的任務(wù),這也導(dǎo)致了語言模型在NLP研究界之外的許多新應(yīng)用。例如,語言模型已經(jīng)通過提示被用于將自然語言指令翻譯成機(jī)器人可執(zhí)行的動(dòng)作(Ahn等人,2022;Huang等人,2022),與用戶交互(Coenen等人,2021;吳等人,2021年;2022a;Lee等人,2022b),并促進(jìn)多模態(tài)推理(Zeng等人,2022年;Alayrac等人,2022。大型語言模型也在現(xiàn)實(shí)世界中部署在產(chǎn)品中,如GitHub CoPilot,7,并直接作為服務(wù)本身部署,如OpenAI的GPT-3 API。8

5.6未來工作方向

未來關(guān)于涌現(xiàn)能力的工作可能包括訓(xùn)練能力更強(qiáng)的語言模型,以及更好地使語言模型能夠執(zhí)行任務(wù)的方法。一些潛在的方向包括但不限于以下內(nèi)容。

進(jìn)一步的模型縮放。

到目前為止,進(jìn)一步擴(kuò)展模型似乎增加了語言模型的功能,這是未來工作的一個(gè)直接方向。然而,簡單地?cái)U(kuò)大語言模型在計(jì)算上是昂貴的,并且需要解決大量的硬件挑戰(zhàn),因此其他方法可能會(huì)在未來大型語言模型的涌現(xiàn)能力中發(fā)揮關(guān)鍵作用。

改進(jìn)了模型架構(gòu)和培訓(xùn)。

改進(jìn)模型體系結(jié)構(gòu)和訓(xùn)練程序可以促進(jìn)具有涌現(xiàn)能力的高質(zhì)量模型,同時(shí)降低計(jì)算成本。一個(gè)方向是使用稀疏混合專家架構(gòu)(Lepikhin等人,2021;Fedus等人,2021年;Artetxe等人,2021,Zoph等人,2022),該架構(gòu)在保持輸入的恒定計(jì)算成本的同時(shí),擴(kuò)大模型中的參數(shù)數(shù)量。提高計(jì)算效率的其他方向可能涉及不同輸入的可變計(jì)算量(Graves,2016;Dehghani等人,2018),使用比神經(jīng)網(wǎng)絡(luò)中所有權(quán)重的反向傳播更本地化的學(xué)習(xí)策略(Jaderberg等人,2017),以及用外部記憶擴(kuò)充模型(Guu等人,2020;Borgeud等人,2021;Wu等人,2022b等)。這些新生的方向已經(jīng)在許多場(chǎng)合顯示出了希望,但尚未得到廣泛采用,這可能需要進(jìn)一步的工作。

數(shù)據(jù)縮放。

在足夠大的數(shù)據(jù)集上進(jìn)行足夠長時(shí)間的訓(xùn)練已被證明是語言模型獲取句法、語義和其他世界知識(shí)能力的關(guān)鍵(Zhang et al.,2021;Wei等人,2021b;Razeghi等人,2022)。最近,Hoffmann等人(2022)認(rèn)為,先前的工作(Kaplan等人,2020)低估了訓(xùn)練計(jì)算優(yōu)化模型所需的訓(xùn)練數(shù)據(jù)量,強(qiáng)調(diào)了訓(xùn)練數(shù)據(jù)的重要性。在固定的模型大小約束下,收集大型數(shù)據(jù)集以便對(duì)模型進(jìn)行更長時(shí)間的訓(xùn)練可以允許更大范圍的涌現(xiàn)能力。

更好的提示技巧和理解。

盡管few-shot提示(Brown et al.,2020)簡單有效,但對(duì)提示的一般改進(jìn)可能會(huì)進(jìn)一步擴(kuò)展語言模型的能力。例如,校準(zhǔn)輸出概率(趙等人,2021;Holtzman等人,2021)或使用有噪聲信道(Min等人,2022a)等簡單修改提高了一系列任務(wù)的性能。用中間步驟擴(kuò)充few-shot樣本(Reynolds&McDonnell,2021;Nye等人,2021;Wei等人,2022b)也使模型能夠執(zhí)行Brown等人的標(biāo)準(zhǔn)提示公式中不可能執(zhí)行的多步驟推理任務(wù)。(2020)。此外,更好地探索是什么使提示成功(Wei et al.,2021a;Xie et al.,2022;Min等人,2022b;Olsson等人,2022)可以深入了解如何在較小的模型規(guī)模下引發(fā)涌現(xiàn)能力。對(duì)模型工作原理的充分理解通常滯后于few-shot提示等技術(shù)的開發(fā)和普及,而且隨著時(shí)間的推移,隨著更強(qiáng)大的模型的開發(fā),提示的最佳實(shí)踐也可能發(fā)生變化。

前沿任務(wù)。

盡管語言模型可以執(zhí)行廣泛的任務(wù),但仍有許多任務(wù),即使是迄今為止最大的語言模型也無法以上述隨機(jī)精度執(zhí)行。附錄E.4列舉了BIG Bench的數(shù)十項(xiàng)此類任務(wù);這些任務(wù)通常涉及抽象推理(例如下棋、挑戰(zhàn)數(shù)學(xué)等)。未來的研究可能會(huì)調(diào)查為什么這些能力還沒有出現(xiàn),以及如何使模型能夠執(zhí)行這些任務(wù)。展望未來,另一個(gè)增長方向可能是多語言的出現(xiàn);多語言BIG Bench任務(wù)的結(jié)果表明,模型規(guī)模和訓(xùn)練數(shù)據(jù)都在出現(xiàn)中發(fā)揮了作用(例如,圖2D顯示,使用PaLM的訓(xùn)練數(shù)據(jù)集和擴(kuò)展到62B參數(shù)都是波斯語問答所必需的)。其他前沿任務(wù)可能包括以多種方式進(jìn)行提示(Alayrac等人,2022;Ramesh等人,2022)。

理解涌現(xiàn)。

除了解鎖進(jìn)一步涌現(xiàn)的研究之外,未來研究的一個(gè)懸而未決的問題是,涌現(xiàn)能力如何以及為什么會(huì)出現(xiàn)在大型語言模型中。本文對(duì)BIG Bench上交叉熵?fù)p失的縮放(附錄A.1)、生成任務(wù)的不同度量(附錄A.2)以及出現(xiàn)的任務(wù)類型(附錄A.3和附錄B)進(jìn)行了初步分析。這些分析并沒有提供出現(xiàn)的原因或如何預(yù)測(cè)的完整答案。未來的研究可能會(huì)以新的方式分析涌現(xiàn)(例如,分析涌現(xiàn)任務(wù)和訓(xùn)練中類似數(shù)據(jù)之間的關(guān)系;創(chuàng)建一個(gè)需要多個(gè)組成子任務(wù)的合成任務(wù),并評(píng)估每個(gè)子任務(wù)如何隨著規(guī)模的增長而改進(jìn),并在組合時(shí)解鎖涌現(xiàn))??偟膩碚f,理解涌現(xiàn)是一個(gè)重要的方向,因?yàn)樗赡茏屛覀冾A(yù)測(cè)未來的模型可能具有什么能力,并為如何訓(xùn)練更有能力的語言模型提供新的見解。

6結(jié)論

我們已經(jīng)討論了語言模型的涌現(xiàn)能力,到目前為止,只有在一定的計(jì)算規(guī)模上才能觀察到有意義的性能。涌現(xiàn)能力可以跨越各種語言模型、任務(wù)類型和實(shí)驗(yàn)場(chǎng)景。這種能力是最近發(fā)現(xiàn)的擴(kuò)展語言模型的結(jié)果,它們是如何出現(xiàn)的,以及更多的擴(kuò)展是否會(huì)使進(jìn)一步的涌現(xiàn)能力成為NLP領(lǐng)域未來重要的研究方向。

更廣泛的影響聲明

在本文中,我們調(diào)查了現(xiàn)有文獻(xiàn)中的結(jié)果,沒有提出新的方法或模型。正如(§5)中所討論的,涌現(xiàn)能力在幾個(gè)方面是不可預(yù)測(cè)的,包括涌現(xiàn)風(fēng)險(xiǎn)(§5.4)。我們認(rèn)為這些現(xiàn)象值得仔細(xì)研究,并為該領(lǐng)域提出了重要問題。

BIG Bench分析

A.1交叉熵?fù)p失分析

在這里,我們研究了縮放曲線如何根據(jù)用于衡量性能的評(píng)估指標(biāo)而出現(xiàn)不同。我們將重點(diǎn)討論六個(gè)few-shot提示的BIG Bench任務(wù),我們認(rèn)為這些任務(wù)對(duì)于LaMDA模型來說是涌現(xiàn)的。其中三項(xiàng)任務(wù)是生成性的,并使用精確匹配(EM)或BLEU(Papineni等人,2002)作為評(píng)估指標(biāo)。其他三項(xiàng)任務(wù)是分類和使用準(zhǔn)確性(acc)作為評(píng)估指標(biāo)。

在這些任務(wù)的縮放曲線中,對(duì)于小型模型(≤1022 FLOP/≤27B參數(shù)),EM/BLEU/acc的性能接近隨機(jī)。我們將這些縮放曲線與通過交叉熵?fù)p失測(cè)量的具有不同y軸的替代圖進(jìn)行比較。交叉熵?fù)p失與EM/BLEU/acc的不同之處在于,即使EM/BLEU/acc是隨機(jī)的,它也能捕捉到性能的改進(jìn)(預(yù)測(cè)的分布越來越接近真實(shí)情況)。例如,如果通過EM/BLEU/acc測(cè)量的兩個(gè)示例都是錯(cuò)誤的,則一個(gè)示例在概率方面可能更接近基本事實(shí),并且該信息通過交叉熵?fù)p失來捕獲。

這些地塊看起來像以下其中一個(gè):

?結(jié)果1:對(duì)于EM/BLEU/acc是隨機(jī)的模型縮放,交叉熵?fù)p失也不會(huì)隨著縮放的增加而改善。這一結(jié)果意味著,對(duì)于這些規(guī)模,模型在任務(wù)方面確實(shí)沒有任何改進(jìn)。

?結(jié)果2:對(duì)于EM/BLEU/acc是隨機(jī)的模型縮放,交叉熵?fù)p失確實(shí)有所改善。這一結(jié)果意味著模型確實(shí)在任務(wù)方面做得更好,但這些改進(jìn)并沒有反映在下游感興趣的指標(biāo)中。更廣泛的含義是,縮放小模型以一種在EM/BLEU/Acc中沒有反映的方式改進(jìn)了模型,并且存在一些關(guān)鍵的模型規(guī)模,這些改進(jìn)使下游度量能夠增加到高于隨機(jī)性的涌現(xiàn)能力。

我們發(fā)現(xiàn),所有六項(xiàng)BIG Bench任務(wù)都屬于結(jié)果2,并在下面詳細(xì)介紹了這一分析??傮w而言,該分析得出的結(jié)論是,小型模型確實(shí)在某些方面有所改進(jìn),而EM/BLEU/Acc沒有捕捉到這些下游指標(biāo)。然而,這些任務(wù)仍然被認(rèn)為是涌現(xiàn)的,并且該分析沒有提供任何關(guān)于如何預(yù)測(cè)這種涌現(xiàn)行為的直接指標(biāo)。

A.1.1生成性任務(wù)

圖5顯示了三個(gè)生成BIG Bench任務(wù)(修改算法、IPA音譯和單詞解讀)的交叉熵?fù)p失,以及圖2中使用的下游評(píng)估指標(biāo)。對(duì)于所有三項(xiàng)任務(wù),請(qǐng)注意,雖然小模型(≤1022 FLOP/≤27B params)的錯(cuò)誤率接近100%,但對(duì)于這些模型大小,交叉熵?fù)p失確實(shí)有所改善。在以錯(cuò)誤率衡量的出現(xiàn)點(diǎn)上,我們還看到了交叉熵?fù)p失性能改進(jìn)的“拐點(diǎn)”。

A.1.2分類任務(wù)

圖6(中間一行)顯示了三個(gè)分類BIG Bench任務(wù)的交叉熵?fù)p失。與生成任務(wù)類似,當(dāng)錯(cuò)誤率接近隨機(jī)時(shí),對(duì)于使用更多計(jì)算訓(xùn)練的模型,交叉熵?fù)p失仍然持續(xù)改善。這再次表明,通過精度計(jì)算的性能可以掩蓋目標(biāo)序列的可能性的一致改進(jìn)。

我們還對(duì)圖6(底行)中的多選涌現(xiàn)任務(wù)進(jìn)行了額外的分析,其中顯示了正確響應(yīng)和錯(cuò)誤響應(yīng)的對(duì)數(shù)概率。我們發(fā)現(xiàn),在三個(gè)涌現(xiàn)多選任務(wù)中,正確和不正確的回答都會(huì)降低交叉熵?fù)p失。與直覺相反,即使對(duì)所有可用的多選回答的概率進(jìn)行歸一化,兩種對(duì)數(shù)概率也會(huì)同時(shí)降低。原因是較大的模型產(chǎn)生較少的極端概率(即接近0或1的值),因此平均對(duì)數(shù)概率具有較少的極小值。然而,我們注意到,對(duì)于這三項(xiàng)任務(wù)中的每一項(xiàng),正確和不正確響應(yīng)的平均對(duì)數(shù)概率最終會(huì)在一定范圍內(nèi)發(fā)生偏差,在此期間,任務(wù)的性能會(huì)大幅提高。

圖6:BIG Bench上三個(gè)分類任務(wù)的錯(cuò)誤率、交叉熵?fù)p失和正確和錯(cuò)誤響應(yīng)的對(duì)數(shù)概率的相鄰圖,我們認(rèn)為這三個(gè)任務(wù)展示了涌現(xiàn)能力。邏輯自變量只有32個(gè)樣本,這可能會(huì)導(dǎo)致噪聲。錯(cuò)誤率為(1-準(zhǔn)確度)。

A.2生成任務(wù)的不同度量

在§5.1中,我們?cè)儐柹扇蝿?wù)上明顯的涌現(xiàn)能力是否是由于使用了特定的度量,如精確字符串匹配,該度量不會(huì)授予部分正確的序列。在這里,我們展示了三個(gè)使用BIG Bench提供的所有評(píng)估指標(biāo)的新興生成BIG Benc任務(wù),其中包括BLEU、ROUGE和BLEURT等指標(biāo),這些指標(biāo)對(duì)與目標(biāo)不完全匹配的答案給予部分獎(jiǎng)勵(lì)。對(duì)于所有三個(gè)任務(wù),涌現(xiàn)行為似乎與使用的評(píng)估度量無關(guān)。因此,我們得出結(jié)論,使用精確的字符串匹配而不是另一個(gè)授予部分學(xué)分的評(píng)估指標(biāo),并不能完全解釋生成任務(wù)的出現(xiàn)。兩個(gè)新興的生成BIG Bench任務(wù),單詞解讀和重復(fù)復(fù)制邏輯,在這里被排除在外,因?yàn)榫_匹配是這些任務(wù)唯一最明智的評(píng)估指標(biāo),這些任務(wù)衡量在輸入中操縱單詞的能力(因此,像BLEU和ROUGE這樣給予單詞級(jí)部分信用的指標(biāo)是無效的)。

A.3 BIG工作臺(tái)任務(wù)分析

BIG Bench包含200多個(gè)任務(wù),每個(gè)任務(wù)都有由提交任務(wù)的作者識(shí)別的相關(guān)關(guān)鍵字(例如,“常識(shí)”、“多語言”)。鑒于此,我們提出了一個(gè)問題,哪些類型的BIG Bench任務(wù)更有可能是涌現(xiàn)的(與平穩(wěn)擴(kuò)展相比)?為了進(jìn)行此分析,我們手動(dòng)將所有210個(gè)BIG Bench任務(wù)分類為迄今為止的涌現(xiàn)任務(wù)或非涌現(xiàn)任務(wù)。我們使用了§3中給出的涌現(xiàn)的定義,即任務(wù)在達(dá)到一定規(guī)模之前具有接近隨機(jī)的性能,之后性能顯著增加到高于隨機(jī)的水平(而不是平穩(wěn)增加)。因?yàn)檫@個(gè)定義基于“近隨機(jī)”的定義可能是主觀的(我們決定的任何啟發(fā)式方法都會(huì)對(duì)這些主觀偏見進(jìn)行編碼),所以該論文的兩位合著者合作,對(duì)所有被標(biāo)記為涌現(xiàn)的任務(wù)都充滿信心。為了完全透明,附錄E中列出了這組注釋。

在圖8中,我們顯示了BIG Bench中每個(gè)關(guān)鍵字出現(xiàn)的任務(wù)數(shù)量。此外,我們根據(jù)首次使用LaMDA 137B或GPT-3 175B出現(xiàn)的任務(wù),以及直到使用PaLM模型才出現(xiàn)的任務(wù)對(duì)它們進(jìn)行了分層。該圖中的非涌現(xiàn)任務(wù)包括“平穩(wěn)增加”任務(wù)(性能可預(yù)測(cè)地隨著模型大小而增加)或“平坦”任務(wù)(所有模型都實(shí)現(xiàn)了近似隨機(jī)的性能)。此圖表中未包含的其余40個(gè)BIG Bench任務(wù)不屬于上述任何類別(例如,由于評(píng)估示例很少而過于嘈雜,性能與模型規(guī)模不相關(guān)等)。

由于每個(gè)關(guān)鍵詞的任務(wù)數(shù)量在不同關(guān)鍵詞之間有很大差異,并且大多數(shù)關(guān)鍵詞的任務(wù)不到20個(gè),因此“最涌現(xiàn)”的關(guān)鍵詞取決于我們是比較涌現(xiàn)任務(wù)的數(shù)量還是比較每個(gè)關(guān)鍵詞的涌現(xiàn)任務(wù)百分比。跟蹤每個(gè)關(guān)鍵字的涌現(xiàn)任務(wù)的絕對(duì)數(shù)量是有問題的,因?yàn)樗鼘?shí)際上只捕獲了BigBench中使用的最常見的關(guān)鍵字。因此,我們跟蹤了哪些關(guān)鍵詞的涌現(xiàn)任務(wù)百分比最高,這些任務(wù)是類比推理、詞義消歧、真實(shí)性、社會(huì)推理和情感理解。雖然人們可能會(huì)先驗(yàn)地認(rèn)為與推理相關(guān)的任務(wù)更有可能是涌現(xiàn)任務(wù),但前五項(xiàng)任務(wù)中只有兩項(xiàng)是推理,而邏輯推理和因果推理等其他關(guān)鍵詞標(biāo)簽在涌現(xiàn)任務(wù)中所占比例并不特別高。此外,算術(shù)和數(shù)學(xué)的涌現(xiàn)任務(wù)比例相對(duì)較低,這是出乎意料的,因?yàn)橐恍┳钤绲挠楷F(xiàn)任務(wù)出現(xiàn)在算術(shù)上(Brown等人,2020)??偟膩碚f,沒有明確的趨勢(shì)表明哪些類型的任務(wù)最為涌現(xiàn)。

最后,用平坦的比例曲線檢查哪些關(guān)鍵詞的任務(wù)最多,也可以與先前的直覺保持一致。例如,視覺推理在具有平坦比例曲線的任務(wù)中所占比例最大(8/13),因?yàn)檎Z言模型不是為視覺推理而設(shè)計(jì)的。其他包含大量平面縮放曲線任務(wù)的類別包括非語言、重復(fù)交互、上下文長度、計(jì)算機(jī)代碼和多步驟——所有這些都針對(duì)大型語言模型的弱點(diǎn)。這些平面類別可能是未來在大型語言模型中出現(xiàn)的工作方向。

圖8:BIG Bench中關(guān)鍵字的涌現(xiàn)任務(wù)比例(每個(gè)任務(wù)可以關(guān)聯(lián)多個(gè)關(guān)鍵字)。我們只包含了至少五個(gè)任務(wù)的關(guān)鍵字。平穩(wěn)增長:隨著模型規(guī)模的增加,性能可以預(yù)見地提高。與LaMDA/GPT一起出現(xiàn):在與LaMDA 137B或GPT-3 175B一起使用之前,性能幾乎是隨機(jī)的。出現(xiàn)PaLM:在使用PaLM模型(8B、62B或540B)之前,所有先前模型的性能幾乎是隨機(jī)的。平坦:沒有哪個(gè)模型比隨機(jī)模型性能更好。

B MMLU的進(jìn)一步分析

在§5.3中,我們看到了Gopher和Chinchilla在MMLU上的涌現(xiàn)性能如何被視為訓(xùn)練FLOP、模型參數(shù)和WikiText103困惑的函數(shù)。因?yàn)镸MLU實(shí)際上是一套57個(gè)主題,涵蓋四個(gè)類別,我們要問的問題是,某些類別是否比其他類別更有利于出現(xiàn)。這與上一節(jié)(附錄A.3)中所做的BIG Bench分析的性質(zhì)相似。這里的一個(gè)區(qū)別是MMLU類別是互斥的——每個(gè)主題只有一個(gè)類別,而單個(gè)BIG Benchtask通常有多個(gè)關(guān)鍵字標(biāo)簽。然而,MMLU只有四個(gè)類別和57個(gè)任務(wù)(相比之下,BIG Bench有200多個(gè)任務(wù)和數(shù)十個(gè)關(guān)鍵字)。

在圖10中,我們?cè)诨鶞?zhǔn)中給出的四個(gè)類別(人文、STEM、社會(huì)科學(xué)和其他)中對(duì)MMLU的性能進(jìn)行了分層,并用多個(gè)x軸繪制它們:訓(xùn)練FLOP、模型參數(shù)和WikiText103困惑。很明顯,社會(huì)科學(xué)和人文學(xué)科在從第二大模型到最大模型的表現(xiàn)上跳得最大,STEM的表現(xiàn)跳得最小。對(duì)于給定的x軸(訓(xùn)練FLOP、模型參數(shù)、WikiText103 ppl),所有四個(gè)類別都具有相似的繪圖形狀。這一結(jié)果也總結(jié)在圖9中。

圖9:最大的Chinchilla和Gopher模型(分別為70B和280B)與第二大模型(Chiinchlla和Gopher的7B參數(shù))相比的性能。7B Chinchilla和Gopher模型在所有四個(gè)類別中的表現(xiàn)都是隨機(jī)的(25%)。因此,從7B到70B/280B進(jìn)步最大的類別是人文和社會(huì)科學(xué),而STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))進(jìn)步最小。

圖10:MMLU上Chinchilla和Gopher的出現(xiàn)。在四行中,性能被分為四個(gè)子類別。對(duì)于Chinchilla和Gopher來說,社會(huì)科學(xué)的出現(xiàn)程度最高,而STEM的出現(xiàn)程度最低。

C所有型號(hào)詳細(xì)信息

下面的表2總結(jié)了我們工作中強(qiáng)調(diào)的模型的參數(shù)計(jì)數(shù)、訓(xùn)練令牌的數(shù)量和訓(xùn)練FLOP。這些模型從最小的具有2.1M參數(shù)的LaMDA模型到最大的具有540B參數(shù)和2.5E+24訓(xùn)練FLOP的PaLM模型,大約是GPT-3計(jì)算預(yù)算的8倍。

D帶參數(shù)計(jì)數(shù)的縮放

圖11、12和13顯示了具有多個(gè)模型參數(shù)的x軸的涌現(xiàn)能力。

圖11:在few-shot提示設(shè)置中出現(xiàn)的八個(gè)示例。每個(gè)點(diǎn)都是一個(gè)單獨(dú)的模型。當(dāng)語言模型在一定范圍內(nèi)達(dá)到隨機(jī)性能時(shí),通過少量鏡頭提示執(zhí)行任務(wù)的能力就會(huì)出現(xiàn),之后性能顯著提高到遠(yuǎn)高于隨機(jī)。請(qǐng)注意,具有更多參數(shù)的模型通常也使用更多的訓(xùn)練計(jì)算——因此,我們?cè)趫D2中顯示了一個(gè)具有訓(xùn)練FLOP的類似圖,而不是將模型參數(shù)的數(shù)量作為x軸。A-D:BIG Bench(2022),2張照片。E: Lin等人(2021)和Rae等人(2021年)。F: Patel&Pavlick(2022)。G: Hendrycks等人(2021a)、Rae等人(2021)和Hoffmann等人(2022)。H: Brown等人(2020)、Hoffmann等人(2022)和Chowdhery等人(2022年)關(guān)于WiC基準(zhǔn)(Pilehvar和Camacho-Collados,2019)。

圖12:專門的提示或微調(diào)方法可能會(huì)出現(xiàn),因?yàn)樗鼈冊(cè)谝欢ǖ哪P鸵?guī)模之前不會(huì)產(chǎn)生積極影響。A: Wei等人(2022b)。B: Wei等人(2022a)。C: Nye等人(2021)。D: Kadavath等人(2022)。A-C中所示的模型是LaMDA(Thoppilan等人,2022),D中所示模型來自Anthropic。

圖13:在一些基準(zhǔn)測(cè)試中,任務(wù)通用模型(沒有明確訓(xùn)練來執(zhí)行任務(wù))超過了特定任務(wù)模型之前的最先進(jìn)性能。A&B:Brown等人(2020)。C: Chowdhery等人(2022)。D: Alayrac等人(2022)

E BIG工作臺(tái)任務(wù)分類

本附錄包含用于附錄A.3中圖8的任務(wù)分類注釋。每個(gè)任務(wù)只顯示在一個(gè)類別中。也就是說,如果一個(gè)任務(wù)最初是用GPT-3或LaMDA出現(xiàn)的,我們將其從PaLM出現(xiàn)類別中排除。

值得注意的是,附錄E.4列出了沒有一個(gè)模型比隨機(jī)(即平坦的縮放曲線)表現(xiàn)更好的任務(wù)。這些任務(wù)是未來出現(xiàn)的潛在候選者,因?yàn)槲磥淼哪P涂赡軙?huì)在它們上實(shí)現(xiàn)以上隨機(jī)性能。

E.1平穩(wěn)增長

抽象敘事理解、自動(dòng)分類、bbq-lite-json、因果、國際象棋狀態(tài)跟蹤、康朗翻譯、上下文定義對(duì)齊、上下文參數(shù)知識(shí)沖突、coqa會(huì)話問答、冷凍生物學(xué)西班牙語、日期理解、表情符號(hào)情緒預(yù)測(cè)、經(jīng)驗(yàn)判斷、隱含極性、評(píng)估信息重要性,預(yù)測(cè)子問題、gem、一般知識(shí)、印地語問答、人體器官感官、含義、隱含關(guān)系、意圖識(shí)別、語言映射、列表函數(shù)、矩陣形狀、多數(shù)據(jù)爭論、多表情、自然指令、無意義單詞語法、對(duì)象計(jì)數(shù)、運(yùn)算符、表中的企鵝、物理學(xué)、波蘭序列標(biāo)記、qa wikidata,關(guān)于有色物體的推理、改寫、謎語感、句子歧義、相似性抽象、簡化概念、簡單算術(shù)、簡單算術(shù)json、簡單算術(shù)json多選、簡單算術(shù)Jason子任務(wù)、簡單算術(shù)多目標(biāo)json、簡易倫理問題、班別轉(zhuǎn)換、主動(dòng)一致、瑞典語到德語諺語、撤消排列,單位轉(zhuǎn)換,上下文學(xué)習(xí)中的非自然現(xiàn)象,銜接回指解析barqa,displqa,新概念,周期元素

E.2出現(xiàn)GPT-3或LaMDA

分析蘊(yùn)涵、代號(hào)、常見詞素、事實(shí)核查器、修辭檢測(cè)、性別包容性句子德語、印度教知識(shí)、國際音標(biāo)音譯、反諷識(shí)別、邏輯隱語、邏輯推導(dǎo)、誤解、修正算術(shù)、短語相關(guān)性、身體直覺、問答創(chuàng)建、重復(fù)復(fù)制邏輯、自我評(píng)估輔導(dǎo),社交iqa,體育理解,奇怪的故事,戰(zhàn)略qa,斯瓦希里英語諺語,單詞排序,單詞解讀

E.3涌現(xiàn)情況

年代錯(cuò)誤、類比相似性、ascii單詞識(shí)別、自動(dòng)調(diào)試、因果判斷、代碼行描述、概念組合、crass ai、cryptonite、cs算法、消歧qa、初等數(shù)學(xué)qa、表情符號(hào)電影、英語諺語、英俄諺語、幾何形狀、目標(biāo)步驟wikihow、gre閱讀理解、hinglish毒性、overbaton、識(shí)別奇數(shù)隱喻、,國際音標(biāo)nli,語言識(shí)別,語言學(xué)謎題,邏輯網(wǎng)格謎題,邏輯謬誤檢測(cè),邏輯序列,隱喻布爾,隱喻理解,電影對(duì)話相同或不同,奇數(shù)出局,parsinlu qa,parsinlo閱讀理解,物理問題,問題選擇,標(biāo)記,充足信息,時(shí)間序列,時(shí)間刻度,理解寓言、單元解讀、vitamic事實(shí)驗(yàn)證

E.4平面(沒有比隨機(jī)模型更好的模型)

抽象和推理語料庫,作者驗(yàn)證,一對(duì)一檢驗(yàn),漢語余數(shù)定理,cifar10分類,顏色,com2sense,循環(huán)字母,話語標(biāo)記預(yù)測(cè),形式謬誤三段論否定,hhh對(duì)齊,漢字ascii,卡納達(dá),鍵值映射,語言游戲,數(shù)學(xué)歸納,微小謎團(tuán)qa,誤解俄語,mnist ascii,多步驟算術(shù),導(dǎo)航,段落分割,玩相同或不同的對(duì)話框,與nli一樣的預(yù)設(shè),程序合成,python編程挑戰(zhàn),真實(shí)或虛假文本,根優(yōu)化和游戲,顯著翻譯錯(cuò)誤檢測(cè),自我意識(shí),上下文中的語義解析sparc,語義解析蜘蛛,簡單文本編輯,數(shù)獨(dú),符號(hào)解釋,talkdown,時(shí)態(tài),文本導(dǎo)航游戲,主題聊天,跟蹤混亂的對(duì)象,二十個(gè)問題,謊言之網(wǎng),維基編輯,winowhy,集合和圖形上的單詞問題

E.5其他

優(yōu)于隨機(jī)且與量表無關(guān):布爾表達(dá)式、崩潰開花、動(dòng)態(tài)計(jì)數(shù)、隱含極性印地語、認(rèn)知推理、總結(jié)的真實(shí)性、幻想推理、性別敏感漢語、性別敏感英語、高低游戲、識(shí)別數(shù)學(xué)定理、交叉幾何、穆斯林暴力偏見、波斯習(xí)語、蛋白質(zhì)互動(dòng)網(wǎng)站、科學(xué)新聞稿,自我評(píng)估法庭,社會(huì)支持,拼字比賽,禁忌,測(cè)試集訓(xùn)練,真實(shí)的qa,是非黑白,黑色幽默檢測(cè),dyck語言,道德允許性,廢墟名稱模型隨著規(guī)模的增加而變得更糟:bbq lite,來自概率的偏見,多樣的社會(huì)偏見,電影推薦,unqover沒有足夠的例子:已知的未知因素,自殺風(fēng)險(xiǎn),道是什么不完整的評(píng)估:令人信服,長上下文整合,醫(yī)學(xué)問題俄語其他:算術(shù)(在1B出現(xiàn),不屬于上述類別),很少注射nlg(不確定為什么BLEURT在這里是負(fù)的)

F PaLM 62B是涌現(xiàn)的,但GPT-3和LaMDA不是

我們?cè)凇?.2中指出,規(guī)模并不是出現(xiàn)的唯一因素,因?yàn)楸M管PaLM 62B具有較少的模型參數(shù)和較少的訓(xùn)練FLOP,但在GPT-3 175B和LaMDA 137B沒有出現(xiàn)的許多BIG Bench任務(wù)中,PaLM 62B顯示出出現(xiàn)。這是任務(wù)列表:年代錯(cuò)誤,ascii單詞識(shí)別,概念組合,密碼,消除歧義qa,表情符號(hào)電影,目標(biāo)步驟wikihow,gre閱讀理解,語言學(xué)謎題,邏輯網(wǎng)格謎題,隱喻布爾,隱喻理解,奇數(shù),parsinlu qa。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容