用0.1%的額外計(jì)算超越縮放定律

Transcending Scaling Laws with 0.1% Extra Compute

https://arxiv.org/abs/2210.11399

Yi Tay, Jason Wei, Hyung Won Chung, Vinh Q. Tran, David R. So, Siamak Shakeri, Xavier Garcia, Huaixiu Steven Zheng, Jinfeng Rao, Aakanksha Chowdhery, Denny Zhou, Donald Metzler, Slav Petrov, Neil Houlsby, Quoc V. Le, Mostafa Dehghani

[Google]


摘要:縮放語(yǔ)言模型可以提高性能,但也會(huì)帶來(lái)巨大的計(jì)算成本。本文提出了UL2R,這是一種通過(guò)相對(duì)少量的額外計(jì)算來(lái)顯著改進(jìn)現(xiàn)有語(yǔ)言模型及其縮放曲線的方法。關(guān)鍵思想是用UL2的混合去噪器目標(biāo)在幾個(gè)步驟上繼續(xù)訓(xùn)練最先進(jìn)的大型語(yǔ)言模型(例如,PaLM)。我們表明,在幾乎可以忽略不計(jì)的額外計(jì)算成本和沒(méi)有新的數(shù)據(jù)來(lái)源的情況下,我們能夠在下游指標(biāo)上顯著改善大型語(yǔ)言模型的縮放特性。在本文中,我們繼續(xù)用UL2R訓(xùn)練PaLM,介紹了一組8B、62B和540B規(guī)模的新模型,我們稱之為UPaLM。令人印象深刻的是,在540B的規(guī)模下,我們展示了大約2倍的計(jì)算節(jié)省率,其中U-PaLM在大約一半的計(jì)算預(yù)算下實(shí)現(xiàn)了與最終PaLM 540B模型相同的性能(即,節(jié)省約440萬(wàn)TPU4小時(shí))。

我們進(jìn)一步表明,這種改進(jìn)的縮放曲線會(huì)在具有挑戰(zhàn)性的BIG Bench任務(wù)中產(chǎn)生“涌現(xiàn)能力”——例如,U-PaLM在某些任務(wù)中比PaLM做得更好,或者在更小的縮放范圍內(nèi)表現(xiàn)出更好的質(zhì)量(62B,而不是540B)。總體而言,我們發(fā)現(xiàn)U-PaLM在許多few-shot設(shè)置上優(yōu)于PaLM,即英語(yǔ)NLP任務(wù)(例如,常識(shí)推理、問(wèn)答)、具有思維鏈的推理任務(wù)(例如GSM8K)、多語(yǔ)言任務(wù)(MGSM、TydiQA)、MMLU和具有挑戰(zhàn)性的BIG Bench任務(wù)。最后,我們提供了定性實(shí)例,展示了U-PaLM在單跨和多跨填充中的新能力。

圖1:計(jì)算(訓(xùn)練失?。┡c質(zhì)量(附錄7.1中列出的20+NLP零和few shot任務(wù)的平均值)。黑色虛線顯示了從PaLM檢查點(diǎn)初始化到使用UL2R進(jìn)一步訓(xùn)練的路徑。

1簡(jiǎn)介

人們對(duì)語(yǔ)言模型的縮放非常感興趣(Rae等人,2021;Chowdhery等人,2022;Brown等人,2020)??s放激發(fā)了多個(gè)領(lǐng)域的新研究,例如縮放律(Kaplan et al.,2020;Hoffmann等人,2022;Tay等人,2022a)、涌現(xiàn)能力(Wei et al.,2022a;Ganguli等人,2022)、推理能力(Wei等人,2022b;Lewkowycz等人,2022年)等。一般來(lái)說(shuō),當(dāng)我們繼續(xù)擴(kuò)大計(jì)算預(yù)算(例如,更大的模型或更多的數(shù)據(jù))時(shí),縮放律預(yù)測(cè)語(yǔ)言模型質(zhì)量的持續(xù)改進(jìn)。到目前為止,構(gòu)成縮放律研究基礎(chǔ)的大多數(shù)大型語(yǔ)言模型幾乎完全被訓(xùn)練為從左到右的因果語(yǔ)言模型(Kaplan等人,2020;Hoffmann等人,2022)。

本文提出了一種新的方法,可以在相對(duì)少量的額外計(jì)算成本的情況下顯著改善大型語(yǔ)言模型對(duì)下游性能的縮放曲線。關(guān)鍵思想是繼續(xù)訓(xùn)練現(xiàn)有的因果語(yǔ)言模型(Chowdhery等人,2022),并混合新的目標(biāo)——特別是UL2訓(xùn)練目標(biāo)混合物(Tay等人,2022b)。這種恢復(fù)預(yù)計(jì)只需原始訓(xùn)練FLOP的0.1%至1%左右,并且不需要新的數(shù)據(jù)源,因此非常高效和方便。我們稱這種方法為UL2R或UL2Restore。

UL2目標(biāo)結(jié)合了前綴語(yǔ)言建模和長(zhǎng)短跨度破壞(例如,填充)任務(wù)(Raffel等人,2019),這些任務(wù)可以在推理時(shí)使用模式切換提示進(jìn)行控制。用UL2訓(xùn)練一個(gè)大型語(yǔ)言模型可以被解釋為教它利用雙向注意力(即PrefixLM)或利用填充式預(yù)訓(xùn)練,這是語(yǔ)言理解的基礎(chǔ)(例如T5(Raffel等人,2019))。為此,我們假設(shè),為最先進(jìn)的大型語(yǔ)言模型(如PaLM(Chowdhery et al.,2022))注入這些不同的預(yù)訓(xùn)練方案,作為對(duì)原始語(yǔ)言模型目標(biāo)的補(bǔ)充,可以使模型表現(xiàn)得更好。此外,UL2目標(biāo)在PaLM中啟用了新的提示功能,使其能夠執(zhí)行基于填充的提示。

我們表明,將PaLM與UL2R相適應(yīng)不僅會(huì)在已建立的few-shot NLP任務(wù)上產(chǎn)生明顯更好的縮放律,而且,在我們對(duì)下游few-shot任務(wù)的縮放實(shí)驗(yàn)中,我們表明UL2R在540B尺度上的效率是原來(lái)的兩倍(計(jì)算節(jié)省約2倍)-僅用一半的計(jì)算就達(dá)到了最終的PaLM 540B模型的性能,節(jié)省了多達(dá)440萬(wàn)TPU4小時(shí)。

除了在一系列公認(rèn)的NLP(Wang等人,2019)、多語(yǔ)言(Clark等人,2020a;Shi等人,2022)和推理(Cobbe等人,2021)基準(zhǔn)中的競(jìng)爭(zhēng)表現(xiàn)外,我們還研究了UL2R對(duì)Wei等人的一系列具有挑戰(zhàn)性的BigBench任務(wù)的影響。(2022a)。值得注意的是,一部分任務(wù)被描述為“涌現(xiàn)”任務(wù),因?yàn)樵?2B的模型規(guī)模下,PaLM的性能保持不變,并且在540B的規(guī)模下只比非隨機(jī)任務(wù)好。在這組任務(wù)中,我們發(fā)現(xiàn)UL2R能夠(1)在PaLM難以完成的任務(wù)(例如,導(dǎo)航、幾何形狀、hyperbaton)上做得更好,以及(2)在較小規(guī)模上引發(fā)涌現(xiàn)行為,如62B或8B(例如,crass ai、Vitamic事實(shí)驗(yàn)證)。除此之外,U-PaLM在一些具有挑戰(zhàn)性的BigBench任務(wù)上的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于PaLM。

在大型語(yǔ)言模型的背景下出現(xiàn)是一個(gè)新興的研究領(lǐng)域。正如諾貝爾獎(jiǎng)獲得者物理學(xué)家菲利普·安德森所說(shuō),“越多就不同?!保ˋnderson,1972),描述了不同規(guī)模的不可預(yù)測(cè)現(xiàn)象。在我們的背景下,對(duì)于UL2中的混合名詞,我們希望將這種現(xiàn)象視為“更多就是不同,但不同也可以更多”,因?yàn)椴煌念A(yù)訓(xùn)練目標(biāo)可以提高語(yǔ)言模型質(zhì)量或引發(fā)新的涌現(xiàn)能力。這項(xiàng)工作表明,多樣性和更豐富的訓(xùn)練范式可能是學(xué)習(xí)新能力的關(guān)鍵,而這些能力以前僅靠因果語(yǔ)言建模很難獲得。

最后,除了涌現(xiàn)任務(wù)性能和總體改進(jìn)的縮放曲線外,我們還表明U-PaLM實(shí)際上更有用,因?yàn)樗鋫淞溯o助提示模式,即雙向填充。具體地說(shuō),UL2R實(shí)現(xiàn)了提示U-PaLM的輔助功能,該功能可用于在輸入提示中填寫(xiě)多個(gè)空格。有趣的是,我們發(fā)現(xiàn)只有少量的UL2R(例如,0.1%的token或FLOP)就足以為模型注入這種新功能。

2相關(guān)工作

大型語(yǔ)言模型擴(kuò)展和改進(jìn)大型語(yǔ)言模型是現(xiàn)代人工智能中最具影響力的研究領(lǐng)域之一(Chowdhery et al.,2022)。為此,大型語(yǔ)言模型不僅在數(shù)據(jù)或計(jì)算預(yù)算方面不斷改進(jìn)(Hoffmann et al.,2022;Kaplan et al.,2020),而且還獲得了新的能力(Wei et al.,2022a)。大型語(yǔ)言模型的影響無(wú)處不在,在許多領(lǐng)域都取得了突破,例如推理(Wei等人,2022b;王等人,2022b;周等人,2022;Drozdov等人,2022)、數(shù)學(xué)(Lewkowycz等人,2022。雖然已經(jīng)提出了許多范式和自監(jiān)督方法來(lái)訓(xùn)練這些模型(Devlin等人,2018;Clark等人,2020b;Yang等人,2019;Raffel等人,2019),但迄今為止,大多數(shù)大型語(yǔ)言模型(即超過(guò)100B的參數(shù))都被訓(xùn)練為僅限解碼器的因果語(yǔ)言模型。例如,GPT-3(Brown et al.,2020)、Gopher(Rae et al.,2021)和PaLM(Chowdhery et al.,2022)等旗艦大型語(yǔ)言模型都被訓(xùn)練為因果語(yǔ)言模型。同時(shí),雙向模型(例如,BERT(Devlin et al.,2018)、T5(Raffel et al.,2019)、ST MoE(Zoph et al.,2022))作為所選擇的goto模型也非常受歡迎,尤其是在較小的計(jì)算機(jī)制中(例如,小于30B的參數(shù),并且經(jīng)常在數(shù)億參數(shù)的范圍內(nèi))。

大型語(yǔ)言模型的縮放律

Kaplan等人(2020)研究了Transformer語(yǔ)言模型的縮放律,并首次表明縮放律可以預(yù)測(cè)未來(lái)的性能。作者發(fā)現(xiàn),模型大?。ǘ皇切螤睿┡c模型質(zhì)量密切相關(guān),即上游交叉熵。Tay等人(2021)研究了編碼器-解碼器模型的縮放特性及其對(duì)上游和下游微調(diào)任務(wù)的影響??傮w而言,Tay等人(2021)發(fā)現(xiàn)上游困惑和下游質(zhì)量并不總是相關(guān)的。作為后續(xù)研究,Tay等人(2022a)研究了不同模型架構(gòu)的縮放律,發(fā)現(xiàn)歸納偏差確實(shí)會(huì)顯著影響模型的縮放行為。最后,Hoffmann等人(2022)提出了計(jì)算優(yōu)化模型,推廣了“龍貓”縮放律,這種方法旨在預(yù)測(cè)給定模型參數(shù)數(shù)量的最佳數(shù)據(jù)量。在這項(xiàng)工作中,我們主要考慮下游性能的縮放律,主要是因?yàn)檫@更能反映語(yǔ)言模型的可用性。由于下游性能比上游交叉熵更重要,我們主張未來(lái)的縮放研究始終結(jié)合下游評(píng)估(和指標(biāo)),而不是僅使用交叉熵?fù)p失。

涌現(xiàn)能力由于擴(kuò)展語(yǔ)言模型而出現(xiàn)的新行為越來(lái)越多地被稱為涌現(xiàn)能力(Steinhardt,2022;Ganguli等人,2022;Wei等人,2022a)。例如,Wei等人(2022a)將涌現(xiàn)能力定義為“不存在于較小模型中,但存在于較大模型中的能力”。對(duì)于few-shot提示的任務(wù),這看起來(lái)像是一條平坦的縮放曲線(隨機(jī)性能),直到達(dá)到某個(gè)臨界閾值,在此期間,性能大大提高到隨機(jī)以上。在BIG Bench基準(zhǔn)中的數(shù)十項(xiàng)任務(wù)中都觀察到了這種類型的現(xiàn)象(Srivastava等人,2022)。盡管這種涌現(xiàn)能力通常被視為規(guī)模的函數(shù),但增加模型規(guī)模以誘導(dǎo)涌現(xiàn)能力在計(jì)算上是昂貴的。在本文中,我們展示了UL2R如何在不增加模型參數(shù)數(shù)量的情況下解鎖涌現(xiàn)。

語(yǔ)言模型的繼續(xù)訓(xùn)練

在更多的數(shù)據(jù)或任務(wù)上繼續(xù)訓(xùn)練(或微調(diào))語(yǔ)言模型的范式通常被稱為適應(yīng)。一系列先前的工作表明,在一組NLP任務(wù)上微調(diào)語(yǔ)言模型可以提高廣泛下游任務(wù)的下游性能(Aghajanyan等人,2021;Aribandi等人,2022;Wei等人,2021年;Sanh等人,2022年;歐陽(yáng)等人,2022等)。然而,大多數(shù)先前的工作需要額外的數(shù)據(jù),例如聚合數(shù)十或數(shù)百個(gè)NLP數(shù)據(jù)集(Raffel et al.,2019;Aghajanyan等人,2021;Aribandi等人,2022),編寫(xiě)額外的指令模板(Wei et al.,2021;Sanh等人,2022。UL2R不需要新的數(shù)據(jù),因?yàn)樗皇侵匦率褂妙A(yù)訓(xùn)練數(shù)據(jù),這使得它與利用大量NLP數(shù)據(jù)集的連續(xù)訓(xùn)練方法正交。已經(jīng)探索了將預(yù)訓(xùn)練的語(yǔ)言模型與新的自監(jiān)督目標(biāo)相適應(yīng)。例如,用語(yǔ)言建模目標(biāo)訓(xùn)練的模型可以通過(guò)用掩碼的語(yǔ)言建模目標(biāo)進(jìn)行進(jìn)一步訓(xùn)練來(lái)適應(yīng)(Wang等人,2022a)。另一個(gè)方向也是可能的;用掩碼語(yǔ)言目標(biāo)訓(xùn)練的模型可以與因果語(yǔ)言建模目標(biāo)相適應(yīng)(Wang等人,2022a;Lester等人,2021)。UL2R遵循了類似的想法,但即使在經(jīng)過(guò)大量的標(biāo)準(zhǔn)預(yù)訓(xùn)練后,它也從不同的名字中提取了一組不同的、新的預(yù)定任務(wù),并展示了對(duì)各種設(shè)置和任務(wù)的快速改進(jìn)。

統(tǒng)一語(yǔ)言學(xué)習(xí)者(UL2)

UL2(Tay等人,2022b)模型是一個(gè)最先進(jìn)的模型,它連接了生成因果語(yǔ)言模型和雙向語(yǔ)言模型。UL2提出了一種混合的去噪器目標(biāo),該目標(biāo)在同一模型內(nèi)混合前綴(非因果)語(yǔ)言建模和填充(跨度破壞),并利用模式提示在下游任務(wù)期間在模式之間切換。UL2與體系結(jié)構(gòu)無(wú)關(guān),作者認(rèn)為僅選擇解碼器與編碼器-解碼器模型在很大程度上是一種效率權(quán)衡。在(Tay等人,2022b)中,最終的UL2模型被訓(xùn)練為20B編碼器-解碼器模型,它在微調(diào)和上下文學(xué)習(xí)方面都取得了非常令人信服的性能。

3 U-PaLM

本節(jié)介紹U-PaLM(即PaLM+UL2R)的技術(shù)細(xì)節(jié)。U-PaLM是從PaLM初始化的,并利用相同的體系結(jié)構(gòu)。本節(jié)介紹了UL2R的訓(xùn)練程序,以及如何將其應(yīng)用于繼續(xù)訓(xùn)練PaLM。

3.1訓(xùn)練數(shù)據(jù)

為了保持一致,我們使用與PaLM相同的數(shù)據(jù)混合來(lái)訓(xùn)練該模型,并且不依賴于額外的數(shù)據(jù)源(token或未token)。

做出這種選擇主要有三個(gè)原因。首先,我們不想在訓(xùn)練過(guò)程中引入新的token,因?yàn)檫@可能會(huì)混淆研究結(jié)果。其次,我們不想對(duì)只測(cè)量對(duì)上游交叉熵影響的標(biāo)度研究進(jìn)行過(guò)度索引(Hernandez et al.,2022),該研究聲稱,少量重復(fù)數(shù)據(jù)可能會(huì)造成不成比例的危害。由于我們獲得的經(jīng)驗(yàn)結(jié)果是強(qiáng)有力的,我們假設(shè)重復(fù)token在較小的數(shù)量下可能不會(huì)有害。這也得到了PaLM 62B在(Chowdhery et al.,2022)中的持續(xù)訓(xùn)練的支持,該訓(xùn)練表明,重復(fù)的數(shù)據(jù)可能會(huì)帶來(lái)小的收益,盡管不如新的token那么強(qiáng)大。第三,我們認(rèn)為我們對(duì)訓(xùn)練數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換(通過(guò)UL2)是足夠獨(dú)特的,因此防止我們?cè)诰哂写_切目標(biāo)的相同數(shù)據(jù)上進(jìn)行明確訓(xùn)練,或者避免任何記憶問(wèn)題。

3.2前綴語(yǔ)言模型體系結(jié)構(gòu)

我們使用前綴語(yǔ)言模型(PrefixLM)架構(gòu)來(lái)訓(xùn)練U-PaLM,有時(shí)也稱為非因果解碼器專用模型。PrefixLM體系結(jié)構(gòu)在其前綴(或輸入)中保留非因果掩碼,并對(duì)輸入tokens施加雙向關(guān)注。

在該架構(gòu)中,我們使用2048的總組合序列長(zhǎng)度(例如,PaLM的序列長(zhǎng)度),然后將其拆分為1024個(gè)輸入和1024個(gè)目標(biāo)。在最初的UL2論文和基礎(chǔ)設(shè)施中,其預(yù)處理管道的工件在組合輸入和目標(biāo)之前首先應(yīng)用填充tokens。對(duì)于僅限解碼器的語(yǔ)言模型,這是低效的,因?yàn)槲覀冏罱K會(huì)得到[prefix][prefix's padding][target]的級(jí)聯(lián)。

在這項(xiàng)工作中,我們通過(guò)強(qiáng)制模型在應(yīng)用任何額外的填充之前連接前綴和目標(biāo)來(lái)優(yōu)化前綴填充。在前綴與目標(biāo)連接之后,隨后應(yīng)用打包、修剪和填充。通過(guò)這種前綴優(yōu)化,我們能夠提高模型的示例級(jí)樣本效率。

3.3損失目標(biāo)

本節(jié)介紹我們?cè)赨L2R中使用的UL2混合除臭劑的設(shè)置。UL2混合去噪物鏡包括三種類型的去噪器。

?定期去噪,將噪聲采樣為跨度,用哨點(diǎn)token替換。這也是Raffel等人(2019)中使用的標(biāo)準(zhǔn)跨度損壞任務(wù)??缍韧ǔJ蔷鶆虿蓸拥模骄禐?,損壞率為15%。

?極端去噪,即噪聲在原始文本中的比例很大或本質(zhì)上很長(zhǎng),從而增加到相對(duì)“極端”的數(shù)量??缍韧ǔR?2的平均長(zhǎng)度或高達(dá)50%的損壞率進(jìn)行均勻采樣。

?順序去噪,即始終從文本開(kāi)始到文本中的隨機(jī)采樣點(diǎn)對(duì)噪聲進(jìn)行采樣。這也被稱為PrefixLM目標(biāo)(不要與體系結(jié)構(gòu)混淆)。

由于Tay等人(2022b)已經(jīng)探索了許多消融,因此我們保持了這一簡(jiǎn)單性。我們保留了最初的7個(gè)去噪器作為初始版本,但后來(lái)發(fā)現(xiàn),只有三個(gè)任務(wù)的混合,例如50%的PrefixLM、25%的長(zhǎng)(極端)跨度損壞和25%的常規(guī)跨度損壞,對(duì)于繼續(xù)訓(xùn)練的設(shè)置來(lái)說(shuō)是非常簡(jiǎn)單和有效的。我們?cè)谧畛醯腢L2設(shè)計(jì)中保留了原始的模式提示tokens。我們將[S2S]用于S-去噪器(PrefixLM),將[NLU]用于R-去噪器,將[NLG]用于X-去噪器。540B U-PaLM模型主要使用50%的S-去噪器(PrefixLM)、25%的R-去噪器和25%的X-去噪器進(jìn)行訓(xùn)練。

3.4訓(xùn)練

我們對(duì)540B模型進(jìn)行了總共20k步的訓(xùn)練,批量大小為32。在62B和8B模型的早期實(shí)驗(yàn)中,我們對(duì)這些設(shè)置進(jìn)行了輕度消融,但將其限制在一定的范圍內(nèi)(例如,50k步的128個(gè)批次)。因此,與完全預(yù)訓(xùn)練相比,這更類似于“微調(diào)”。因此,與最初的預(yù)訓(xùn)練運(yùn)行相比,額外tokens的數(shù)量可以忽略不計(jì),通常額外計(jì)算量約為或小于0.1%。我們?yōu)?40B模型訓(xùn)練的額外token總數(shù)約為13億,占額外計(jì)算的0.16%。我們使用余弦學(xué)習(xí)率衰減計(jì)劃,將學(xué)習(xí)率從10?4退火到10?6。值得注意的是,我們還嘗試了低恒定學(xué)習(xí)率,發(fā)現(xiàn)它們的表現(xiàn)完全相同。我們的U-PaLM 8B和62B型號(hào)使用64個(gè)TPU4芯片進(jìn)行訓(xùn)練。U-PaLM 540B型號(hào)的訓(xùn)練只消耗512個(gè)TPU4芯片,并且在大約5天內(nèi)完成,這被認(rèn)為是輕量級(jí)的。

4實(shí)驗(yàn)

本節(jié)報(bào)告U-PaLM的實(shí)驗(yàn)結(jié)果。

4.1改進(jìn)的few-shot學(xué)習(xí)縮放特性

在這個(gè)實(shí)驗(yàn)中,我們展示了在PaLM 8B和PaLM 540B之上進(jìn)行少量UL2R訓(xùn)練的改進(jìn)的縮放曲線。我們使用下游指標(biāo)和few-shot評(píng)估,因?yàn)椋?)這更接近這些模型的可用性,以及(2)UL2和因果語(yǔ)言建模的損失是不可比較的。我們使用不同的PaLM中間檢查點(diǎn)初始化并訓(xùn)練了多個(gè)U-PaLM模型。在8B模型上,我們以不同的間隔重復(fù)了7次。考慮到540B模型對(duì)計(jì)算的要求更高,我們只擬合了3點(diǎn)。為了進(jìn)行評(píng)估,我們使用GPT-3套件中NLU和NLG任務(wù)的平均分?jǐn)?shù)(Brown等人,2020)。我們總共使用了26個(gè)任務(wù)(例如,TriviaQA、NaturalQuestions、SuperGLUE、PIQA、OpenbookQA、ANLI等)。圖2的詳細(xì)信息和準(zhǔn)確分?jǐn)?shù)可在附錄中找到。

圖2顯示,U-PaLM在8B尺度和540B尺度上都大大優(yōu)于原始PaLM模型。注意,虛線表示UL2R訓(xùn)練前后的路徑,我們表明UL2R訓(xùn)練顯著改善了PaLM的縮放曲線,即,與使用標(biāo)準(zhǔn)因果語(yǔ)言建模目標(biāo)更長(zhǎng)時(shí)間地訓(xùn)練原始PaLM模型相比,UL2R提供了更有效的計(jì)算性能改進(jìn)。

8B與540B

一般來(lái)說(shuō),UL2R持續(xù)改善了基礎(chǔ)的PaLM模型。然而,我們?cè)?B和540B模型上觀察到了不同的行為。隨著PaLM 8B的表現(xiàn)開(kāi)始趨于平穩(wěn),差距似乎縮小了,即最大的增益接近訓(xùn)練中期。至于540B,即使在780Btoken的情況下,收益仍在繼續(xù)增長(zhǎng)。我們認(rèn)為,這是由于PaLM 540B在780Btoken之外仍有很大的凈空。

儲(chǔ)蓄率

在訓(xùn)練的某個(gè)階段,我們可以選擇使用標(biāo)準(zhǔn)因果語(yǔ)言建模目標(biāo)或?qū)ι倭坎襟E應(yīng)用UL2R來(lái)繼續(xù)訓(xùn)練K個(gè)步驟。在這里,我們討論了選擇UL2R而不是使用因果語(yǔ)言建模繼續(xù)訓(xùn)練的反事實(shí)節(jié)省率。對(duì)于540B型號(hào),中間檢查點(diǎn)的節(jié)省率約為2倍。這相當(dāng)于540B型號(hào)的約440萬(wàn)TPU4小時(shí)。對(duì)于8B模型,在模型開(kāi)始和收斂時(shí),儲(chǔ)蓄率往往最低。它似乎在訓(xùn)練的中期階段更高(相對(duì)于收斂),這表明UL2R的效用隨著已經(jīng)完成的因果語(yǔ)言建模訓(xùn)練的數(shù)量而變化。對(duì)于540B模型,由于PaLM模型沒(méi)有經(jīng)過(guò)收斂訓(xùn)練,并且tokens數(shù)量與參數(shù)的比率相對(duì)較低,因此節(jié)省率仍可能增加,甚至超過(guò)2.35倍??傮w而言,節(jié)省的數(shù)量與模型的訓(xùn)練點(diǎn)和收斂階段成正比,并且可能可以通過(guò)標(biāo)準(zhǔn)縮放律進(jìn)行預(yù)測(cè)(Kaplan等人,2020;Hoffmann等人,2022)。

單個(gè)任務(wù)的細(xì)分

圖3報(bào)告了混合物中每個(gè)零次和一次shot任務(wù)的個(gè)人得分。我們發(fā)現(xiàn)U-PaLM 540B在26個(gè)任務(wù)中的21個(gè)任務(wù)上優(yōu)于PaLM 540B。鑒于PaLM是這些任務(wù)的SOTA語(yǔ)言模型,這使得U-PaLM成為這些任務(wù)的最新技術(shù)。

圖3:針對(duì)780Btoken訓(xùn)練的PaLM和U-PaLM 540B的單個(gè)零樣本和單次NLP任務(wù)的分解分?jǐn)?shù)。U-PaLM的性能優(yōu)于PaLM 540B,在26項(xiàng)任務(wù)中有21項(xiàng)任務(wù)實(shí)現(xiàn)了SOTA。

4.2 BigBench急救套房

表1:BigBench涌現(xiàn)套件(BBES)中具有挑戰(zhàn)性的任務(wù)列表以及PaLM 540B和U-PaLM 540B的相應(yīng)分?jǐn)?shù)。所有結(jié)果均采用標(biāo)準(zhǔn)的5點(diǎn)提示進(jìn)行報(bào)告。

我們從BigBench中選擇了一組具有挑戰(zhàn)性的任務(wù),基于這樣一個(gè)標(biāo)準(zhǔn),即PaLM在這些任務(wù)上的性能在8B和62B級(jí)別上保持相對(duì)平穩(wěn),但在540B級(jí)別上突然解鎖。我們還考慮了PaLM 540B難以解決的任務(wù)(接近隨機(jī)性能)。受Wei等人(2022a)制定的標(biāo)準(zhǔn)的啟發(fā),我們將這些任務(wù)集稱為BigBench任務(wù)的涌現(xiàn)任務(wù)集(BBES)。請(qǐng)注意,雖然這組任務(wù)重疊,但與BBH并不完全相同(Suzgun等人,2022)。此外,BBES使用默認(rèn)提示和模板作為BIG Bench,而不使用思想鏈提示。因此,它們并非完全可比。BBH結(jié)果見(jiàn)第4.3.3節(jié)。

4.2.1 BIG試驗(yàn)臺(tái)結(jié)果

表1報(bào)告了BigBench涌現(xiàn)套件上的PaLM 540B和U-PaLM 540B的結(jié)果。我們還描述了每個(gè)任務(wù)的任務(wù)和推理任務(wù)。請(qǐng)注意,有些任務(wù)需要結(jié)合各種“技能”才能擅長(zhǎng)。例如,導(dǎo)航任務(wù)是空間推理和算術(shù)(計(jì)數(shù))的結(jié)合。

總體結(jié)果和比例圖

我們觀察到U-PaLM在540B規(guī)模的21項(xiàng)任務(wù)中有19項(xiàng)優(yōu)于PaLM。此外,在某些任務(wù)上的收益是巨大的(例如,55.3%→ 67.0%)和69.1%→ 86.1%的snarks)。平均而言,在所有21個(gè)任務(wù)中,在未歸一化的聚合平均值上有+5.4%的相對(duì)質(zhì)量增益,我們認(rèn)為這是非常好的結(jié)果。圖4顯示了U-PaLM相對(duì)于其他模型的比例圖。只要可能,我們還包括官方BIG Bench存儲(chǔ)庫(kù)中的GPT-3或Gopher等基線。

UL2R在較小規(guī)模上解鎖涌現(xiàn)任務(wù)性能

規(guī)模(例如,擴(kuò)展到540B)是導(dǎo)致涌現(xiàn)任務(wù)性能的一個(gè)因素(Wei et al.,2022a)。我們發(fā)現(xiàn)UL2R能夠在較小的范圍內(nèi)引發(fā)涌現(xiàn)能力。例如,某些任務(wù)的質(zhì)量,如crass_ai、vitaminc、identify_oodd_metaphors,是性能開(kāi)始在62B級(jí)別上飆升的任務(wù)(而PaLM模型僅在540B級(jí)別)。在極少數(shù)情況下,U-PaLM 8B的性能甚至高于PaLM 62B(例如,snarks、understanding_ables)??偟膩?lái)說(shuō),這些結(jié)果表明,有強(qiáng)有力的證據(jù)表明,在揭示大型語(yǔ)言模型中的新能力時(shí),歸納偏見(jiàn)(例如,前綴語(yǔ)言建模的組合、UL2中基于跨度損壞的預(yù)訓(xùn)練)可能是至關(guān)重要的。

4.2.2在BIG工作臺(tái)上分析個(gè)人任務(wù)表現(xiàn)

本節(jié)深入探討單個(gè)任務(wù)的性能,并試圖了解不同類型的BIG Bench任務(wù)的質(zhì)量。

空間或視覺(jué)推理任務(wù)

U-PaLM做得非常好的第一類任務(wù)是需要某種形式的空間或視覺(jué)推理的任務(wù)(例如,導(dǎo)航或幾何圖形)。在這兩項(xiàng)任務(wù)中,U-PaLM 8B的性能都優(yōu)于PaLM 540B。我們假設(shè)這是由于前綴語(yǔ)言模型架構(gòu)和U-PaLM所經(jīng)歷的額外PrefixLM訓(xùn)練。為了更好地說(shuō)明問(wèn)題,請(qǐng)考慮這些任務(wù)中的以下示例。

?在導(dǎo)航任務(wù)中,示例如下:“向右轉(zhuǎn)彎。邁出1步。右轉(zhuǎn)采取6個(gè)步驟。右轉(zhuǎn)邁出1步。右轉(zhuǎn)采取兩個(gè)步驟。采取4個(gè)步驟并且該任務(wù)是確定代理是否返回到起始點(diǎn)的二進(jìn)制分類任務(wù)。

?在幾何圖形任務(wù)中,目標(biāo)是預(yù)測(cè)給定SVG路徑的形狀,例如,給定“M 31,29 L 34,76 L 82,16 L 31,29”,模型應(yīng)預(yù)測(cè)三角形。

這里,值得注意的是,通過(guò)雙向注意力和使用類似PrefixLM的目標(biāo)進(jìn)行訓(xùn)練,可以直觀地改進(jìn)這兩項(xiàng)任務(wù)。這可以解釋為什么U-PaLM即使在8B時(shí)也能優(yōu)于PaLM 540B,因?yàn)樗毁x予了正確的電感偏置。

圖4:作為訓(xùn)練FLOP的函數(shù),不同大小的PaLM、U-PaLM、Gopher和GPT-3的BIG Bench涌現(xiàn)套件(BBES)的標(biāo)度圖。分?jǐn)?shù)是標(biāo)準(zhǔn)化的分?jǐn)?shù),其中零表示或多或少的隨機(jī)表現(xiàn)。X軸為對(duì)數(shù)刻度。

常識(shí)和知識(shí)任務(wù)

21項(xiàng)任務(wù)中有相當(dāng)一部分需要某種形式的常識(shí)或基于語(yǔ)言的知識(shí)才能做好。值得注意的是,U-PaLM不使用任何新的唯一tokens(或新數(shù)據(jù))進(jìn)行訓(xùn)練,因此,與普通的PaLM相比,它無(wú)法獲得任何新的“知識(shí)”。因此,與更依賴算法或其他類型推理的任務(wù)相比,這里的收益預(yù)計(jì)會(huì)更溫和。然而,我們?cè)谀承┤蝿?wù)中觀察到一些相對(duì)較小的增益(例如,understanding_ables或movie_dialog_same_or_different)。在這類任務(wù)中,有一個(gè)例外是snarks任務(wù),它涉及檢測(cè)自然語(yǔ)言中的諷刺。值得注意的是,U-PaLM表現(xiàn)不如PaLM的21項(xiàng)任務(wù)中,只有2項(xiàng)屬于這一類(例如,logical_sequence和english_provers)。我們認(rèn)為這是合理的,因?yàn)槲覀儾⒉煌耆谕鸘L2R總是改進(jìn)這類任務(wù),因?yàn)樗鼘?shí)際上并不處理新的數(shù)據(jù)tokens。

語(yǔ)境推理或閱讀理解任務(wù)

有些任務(wù)需要對(duì)上下文有一定的理解,然后要求語(yǔ)言模型根據(jù)上下文回答問(wèn)題。Vitamic_fact_verficiation任務(wù)就是一個(gè)例子,它試圖在給定外部證據(jù)(上下文)的情況下確定索賠的真實(shí)性。另一個(gè)例子是understanding_ables任務(wù),其目標(biāo)是在給定的上下文(段落或故事)中確定“故事的士氣”。值得注意的是,U-PaLM在這兩項(xiàng)任務(wù)中以62B的規(guī)模出現(xiàn),盡管最終的540B模型性能相對(duì)相似。我們假設(shè)這是由于PrefixLM的架構(gòu)(和預(yù)訓(xùn)練)優(yōu)勢(shì),它有助于模型在更小的規(guī)模下表現(xiàn)得更好。直覺(jué)上,能夠用上下文(前綴)進(jìn)行雙向推理在上下文推理任務(wù)中可能很重要。

多步驟推理、類比推理和算術(shù)任務(wù)

我們觀察到,在540B量表下,類比推理任務(wù)(例如,類比相似性)或多步驟推理任務(wù)(策略qa)的性能有所提高。然而,與上下文推理任務(wù)不同,這類任務(wù)的性能往往遵循類似的縮放模式,盡管性能稍好。例如,基于圖4,我們注意到strategyqa遵循與PaLM相對(duì)相似的縮放曲線。

4.3零樣本和Few-shot NLP

在本節(jié)中,我們將評(píng)估我們?cè)诟鞣N成熟的NLP任務(wù)上的模型。這些任務(wù)測(cè)試U-PaLM的零次和few shot能力。

4.3.1常識(shí)推理

我們?cè)谒膫€(gè)零樣本常識(shí)推理基準(zhǔn)上進(jìn)行了實(shí)驗(yàn)。具體而言,在以下(Hoffmann等人,2022)中,我們使用了BoolQ(Clark等人,2019)、PIQA(Bisk等人,2020)、HellaSWAG(Zellers等人,2019。除了我們用于與U-PaLM直接比較的PaLM 62B和PaLM 540B外,我們還與Chinchilla 70B(Hoffmann等人,2022)和Gopher 280B(Rae等人,2021)進(jìn)行了比較。表2報(bào)告了零樣本常識(shí)推理的結(jié)果。

我們發(fā)現(xiàn)U-PaLM 540B在所有四項(xiàng)任務(wù)上都優(yōu)于PaLM 540B,平均相對(duì)改進(jìn)率為(+1.4%),并在所有模型中獲得最佳性能。

4.3.2問(wèn)答與閱讀理解

我們?cè)u(píng)估了零樣本和少熱點(diǎn)閉書(shū)問(wèn)答(CBQA)任務(wù)(Kwiatkowski et al.,2019;Joshi et al.,2017;Roberts et al.,2020)以及零樣本Lambada閱讀理解任務(wù)(Paperno et al.,2016)。表3報(bào)告了我們的實(shí)驗(yàn)結(jié)果。我們與PaLM 62B、PaLM 540B、Chinchilla 70B和Gopher 280B進(jìn)行了比較。

總體而言,在few-shotCBQA和閱讀理解方面,我們觀察到U-PaLM 540B在few-shot自然問(wèn)題上平均優(yōu)于PaLM 540B+2.3%,高達(dá)+111.4%。同時(shí),62B級(jí)別的增益也很強(qiáng)(即,平均+2.1%)。

4.3.3推理與思維鏈實(shí)驗(yàn)

我們?cè)谕评砗虲oT方面進(jìn)行了實(shí)驗(yàn),并將U-PaLM 540B與PaLM540B和Minerva 540B進(jìn)行了比較。我們使用GSM8K(Cobbe et al.,2021)、BBH(Suzgun et al.,2022)、StrategyQA(Geva等人,2021)和CommonsenseQA(Talmor等人,2019)基準(zhǔn)。所有任務(wù)都是在思想鏈(CoT)提示下運(yùn)行的。

表4報(bào)告了推理和CoT基準(zhǔn)的結(jié)果。U-PaLM 540B的性能優(yōu)于PaLM 540A和Minverva 540B。值得注意的是,GSM8K和BBH的漲幅相對(duì)較強(qiáng)。這表明U-PaLM在推理方面做得很好,非常適合于思想鏈推理。

4.3.4多語(yǔ)言few-shot推理和問(wèn)答任務(wù)

我們對(duì)few-shot多語(yǔ)言推理和問(wèn)答任務(wù)進(jìn)行了實(shí)驗(yàn)。我們使用(Shi et al.,2022)中提出的MGSM(多語(yǔ)言小學(xué)數(shù)學(xué))基準(zhǔn)。對(duì)于多語(yǔ)言問(wèn)答,我們使用公認(rèn)的TydiQA(Clark et al.,2020a)基準(zhǔn)。在我們的實(shí)驗(yàn)中,PaLM 540B和U-PaLM 540B都使用思維鏈提示(Wei et al.,2022b)。

4.3.5大規(guī)模多任務(wù)語(yǔ)言理解

我們?cè)诖笠?guī)模多任務(wù)語(yǔ)言理解(MMLU)基準(zhǔn)上比較了PaLM和U-PaLM(Hendrycks et al.,2020)。表6報(bào)告了我們對(duì)MMLU測(cè)試集的結(jié)果。先前的結(jié)果來(lái)自(Hoffmann等人,2022)。我們的結(jié)果表明,U-PaLM在該任務(wù)上以2.0%的相對(duì)增益優(yōu)于PaLM。

4.4微調(diào)

我們對(duì)SuperGLUE(Wang等人,2019)和TydiQA(Clark等人,2020a)進(jìn)行了微調(diào)實(shí)驗(yàn)。我們以8B和62B的比例1進(jìn)行實(shí)驗(yàn)。以恒定的學(xué)習(xí)速率對(duì)批量大小為32的100k步進(jìn)行微調(diào)。

表7報(bào)告了微調(diào)結(jié)果。我們觀察到,在微調(diào)方面有了實(shí)質(zhì)性的改進(jìn),尤其是在8B級(jí)別。收益在62B的規(guī)模上略有下降,但總體上仍然溫和。我們注意到,通??梢哉J(rèn)為PaLM的微調(diào)性能弱于預(yù)期。例如,在SuperGLUE開(kāi)發(fā)平均值上,PaLM 8B通常優(yōu)于T5大型模型。我們假設(shè),在UL2和跨度損壞任務(wù)上訓(xùn)練PaLM,作為因果語(yǔ)言建模的補(bǔ)充,可以改善其一些缺陷。我們的結(jié)果證實(shí)了這一點(diǎn),表明U-PaLM顯著提高了質(zhì)量,尤其是在較小的(8B)尺度下。

5定性分析:新的提示能力

除了改善PaLM的縮放行為外,我們發(fā)現(xiàn)在UL2R中應(yīng)用的少量持續(xù)訓(xùn)練足以為PaLM注入U(xiǎn)L2目標(biāo)引入的新提示能力。也就是說(shuō),在UL2中使用去噪允許PaLM獲得填充能力。填充允許U-PaLM有第二種方法來(lái)處理提示,我們認(rèn)為這非常有用。此外,通過(guò)U-PaLM,我們還可以提供模式tokens,以獲得特定的預(yù)訓(xùn)練目標(biāo)。這為我們提供了一個(gè)強(qiáng)大的工具來(lái)控制模型,而無(wú)需對(duì)模型或其推理進(jìn)行任何更新。在本節(jié)中,我們提供了一些U-PaLM擴(kuò)展的提示功能被證明是有用的情況示例。

5.1填充能力

從左到右的因果語(yǔ)言模型預(yù)訓(xùn)練通常允許模型提供有意義的提示延續(xù)。使用U-PaLM,我們觀察到,通過(guò)使用少量UL2去噪步驟擴(kuò)展預(yù)訓(xùn)練,該模型還能夠獲得填充能力——在提示中間給模型一個(gè)位置來(lái)填充。值得注意的是,使用U-PaLM,可以通過(guò)使用額外的IDtokens(在去噪中使用)或不使用來(lái)查詢填充樣式和傳統(tǒng)樣式,分別地

在圖5中,我們包括了PaLM、具有傳統(tǒng)提示的U-PaLM以及具有填充提示的U-PaLM的示例輸出。我們用兩種方式表達(dá)這個(gè)特定的提示:一種是適合通過(guò)PaLM進(jìn)行傳統(tǒng)提示的問(wèn)題,另一種是利用U-PaLM的填充功能。在傳統(tǒng)的措辭中,PaLM和U-PaLM都不會(huì)產(chǎn)生正確的答案。對(duì)于填充語(yǔ)句,PaLM忽略填充tokens(額外IDtokens),因?yàn)镻aLM在訓(xùn)練期間沒(méi)有看到它,而是在步驟4之后生成其余步驟。U-PaLM正確填充了本例中的第二個(gè)步驟。最后,包括第三個(gè)示例來(lái)演示U-PaLM填充多個(gè)插槽的能力。這些例子表明,只需少量的額外訓(xùn)練,我們就可以擴(kuò)展PaLM的功能,為一類全新的查詢提供服務(wù)。

5.2利用特定的預(yù)訓(xùn)練模式

回想一下,通過(guò)UL2目標(biāo),R-、X-和S-去噪器分別與[NLU]、[NLG]和[S2S]模式token相關(guān)聯(lián)。S-去噪器本質(zhì)上是PrefixLM目標(biāo),而R-和X-去噪器是跨度損壞的變體,因此也與額外的IDtokens相關(guān),我們可以在提示填充時(shí)使用這些tokens(如上所示)。給定這種獨(dú)特的設(shè)置,我們可以控制推理過(guò)程中的模式tokens,以訪問(wèn)可能在一種模式下而不是在另一種模式中獲取的特定知識(shí)。這有效地為我們提供了更多關(guān)于如何回答提示的選擇,而無(wú)需對(duì)學(xué)習(xí)的模型或其推理算法進(jìn)行任何更改。

在圖6中,我們包含了一個(gè)具有挑戰(zhàn)性的示例,其中我們要求模型從英語(yǔ)問(wèn)題到越南語(yǔ)問(wèn)題進(jìn)行零樣本跨語(yǔ)言問(wèn)答。對(duì)于PaLM和U-PaLM默認(rèn)值,我們按原樣將輸入傳遞給模型。對(duì)于其余部分,我們將[S2S]、[NLU]或[NLG]中的一個(gè)前置到輸入的開(kāi)頭,在[NLU]和[NLG]的情況下,我們?cè)谳斎氲哪┪蔡砑犹畛鋞oken,這是這些模式的典型情況。有趣的是,[S2S]模式下的U-PaLM是唯一一個(gè)在越南語(yǔ)中返回正確答案的變體。常規(guī)的PaLM產(chǎn)生正確的答案,但忽略越南人的請(qǐng)求,而具有默認(rèn)提示(無(wú)模式,無(wú)填充)的U-PaLM產(chǎn)生大致正確的答案但可能更具體(“xanh”包括綠色和藍(lán)色)。這個(gè)例子展示了訪問(wèn)特定模式tokens如何在某些提示下比其他提示更有效,為我們提供了一種強(qiáng)大的技術(shù)來(lái)提供更多種類的提示。

5.3改進(jìn)開(kāi)放式發(fā)電的多樣性

即使[NLU]和[NLG]模式在跨度損壞的預(yù)訓(xùn)練過(guò)程中通常重合(涉及額外的IDtokens,填充),我們?nèi)匀豢梢允褂猛耆珱](méi)有填充的[NLU]或[NLG]方式tokens。類似地,我們可以使用填充,但不使用模式token。提示U-PaLM的多種方法產(chǎn)生了一種有用的技術(shù),可以增加我們從模型中獲得的輸出的多樣性,而無(wú)需求助于其他解碼技術(shù)(例如采樣)。這對(duì)于更開(kāi)放的提示特別有用。

在圖7中,我們要求PaLM和查詢U-PaLM的所有變體寫(xiě)一首關(guān)于“一只貓?jiān)诤峡镜案狻钡馁骄洹@是一個(gè)非常隨機(jī)的提示,模型在訓(xùn)練過(guò)程中不太可能看到,但需要非常結(jié)構(gòu)化的輸出。這里所有的輸出都使用貪婪解碼,令人驚訝的是,所有的模型都生成了關(guān)于這個(gè)主題的合理的俳句,盡管并不是所有的都遵循嚴(yán)格的5-7-5音節(jié)結(jié)構(gòu)。帕勒姆的俳句重復(fù)了第一行和最后一行,這就不那么有趣了。我們可以看到,查詢U-PaLM的不同組合導(dǎo)致了令人愉快的變化的詩(shī)歌。

6結(jié)論和未來(lái)工作

我們提出UL2R用于持續(xù)訓(xùn)練PaLM。我們表明,只需≈0.1%的額外FLOP(或計(jì)算),我們就能夠在許多下游任務(wù)和指標(biāo)上改進(jìn)PaLM的縮放曲線和特性。值得注意的是,UL2R能夠在540B的規(guī)模下節(jié)省440萬(wàn)TPU4。我們稱之為U-PaLM的最終模型在英語(yǔ)NLP任務(wù)(例如,常識(shí)推理和閉書(shū)問(wèn)答)、具有思維鏈的推理任務(wù)、多語(yǔ)言推理、MMLU和一系列具有挑戰(zhàn)性的BIG Bench任務(wù)方面優(yōu)于PaLM。

此外,UL2R與FLAN等多任務(wù)微調(diào)方法配合得好嗎?通常,我們想在這里以一個(gè)陳詞濫調(diào)的未來(lái)工作聲明結(jié)束,但今天不行,因?yàn)槲覀円呀?jīng)在這里做了(Chung et al.,2022)。看看吧!

鳴謝

我們感謝Le Hou和Oliver Bousquet對(duì)論文的建議和反饋。我們感謝Barret Zoph和William Fedus對(duì)本文件的早期討論。我們感謝Adam Roberts對(duì)之前工作的反饋。

7附錄

7.1few shot實(shí)驗(yàn)的縮放曲線細(xì)節(jié)

我們計(jì)算以下任務(wù)的平均聚合分?jǐn)?shù)。我們使用21個(gè)零樣本等級(jí)分類任務(wù),即BoolQ、Record、COPA、RTE、WiC、WSC、CB、MultiRC、Winograd、Winogrande、ANLI R1、ANLI R2、ANLI R3、PIQA、StoryCloze、HellaSwag、Arc-e、Arc-C、RaceM、RaceH、OpenbookQA。我們使用了5個(gè)一次性生成任務(wù),即TriviaQA、NaturalQuestions、WebQuestions,SQuaDV2和Lambada。除MultiRC外,所有任務(wù)都使用準(zhǔn)確性(或精確匹配)度量,MultiRC報(bào)告如下(Brown等人,2020)。總的來(lái)說(shuō),聚合度量是所有26個(gè)任務(wù)的平均值。下面我們列出了與圖2的540B比例圖相對(duì)應(yīng)的分?jǐn)?shù)。

7.2 Vocab和Sentineltoken的詳細(xì)信息

對(duì)于U-PaLM,我們必須對(duì)跨度損壞或填充任務(wù)進(jìn)行訓(xùn)練。我們使用與UL2和T5相同的設(shè)置,在那里我們將哨兵token(例如,<extra_id_0>)注入到掩碼位置。在T5中,哨兵id作為100個(gè)額外的vocbtoken添加到句子(vocb)的末尾。在PaLM中,由于我們從現(xiàn)有的PaLM檢查點(diǎn)重新啟動(dòng),在vocb中初始化100個(gè)新嵌入非常麻煩。因此,我們選擇簡(jiǎn)單地使用最后100個(gè)子字作為哨兵token。最后,在訓(xùn)練模型時(shí),我們還在vocb中使用eos符號(hào)。

7.3附加討論

在本節(jié)中,我們將深入探討一些其他主題和討論。

7.3.1從頭開(kāi)始的訓(xùn)練怎么樣?

我們對(duì)著房間里的大象講話。這個(gè)問(wèn)題有多種觀點(diǎn)。首先,UL2R可以被認(rèn)為是“UL2時(shí)間表”的一種形式,它將單個(gè)因果語(yǔ)言模型目標(biāo)從0步設(shè)置到N步,然后進(jìn)行從N步到N+ε的UL2混合。從這個(gè)意義上說(shuō),如果我們想從頭開(kāi)始訓(xùn)練,這將需要修改混合物,以具有明顯更多的因果語(yǔ)言建模。第二個(gè)觀點(diǎn)是,UL2R引入了一種自然課程,在該課程中,該模型在進(jìn)行填充或?qū)W習(xí)如何利用雙向感受野等任務(wù)之前,花費(fèi)很大一部分訓(xùn)練來(lái)獲得基本的語(yǔ)言建模。預(yù)訓(xùn)練任務(wù)是否有分類法或?qū)哟谓Y(jié)構(gòu)仍然是一個(gè)懸而未決的問(wèn)題,我們希望在未來(lái)的工作中回答這個(gè)問(wèn)題。第三個(gè)觀點(diǎn)是U-PaLM的實(shí)踐方面。從頭開(kāi)始訓(xùn)練PaLM 540B模型的成本非常高,我們希望盡可能多地重用現(xiàn)有模型(或組件),為新任務(wù)設(shè)計(jì)新模型。U-PaLM就是這類研究的一個(gè)例子。最后,考慮到許多語(yǔ)言模型都被訓(xùn)練為因果語(yǔ)言模型,我們相信UL2R為只需少量計(jì)算就可以改進(jìn)現(xiàn)有模型提供了巨大的機(jī)會(huì)。7.3.2對(duì)FLAN或T0等許多新任務(wù)的監(jiān)督微調(diào)如何?很高興你問(wèn)我。看看我們的其他工作(Chung et al.,2022),它表明UL2R和FLAN是互補(bǔ)的。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容