模型:
有趣的是,當(dāng)參數(shù)規(guī)模超過一定水平時(shí),這個(gè)更大的語言模型實(shí)現(xiàn)了顯著的性能提升,并出現(xiàn)了小模型中不存在的能力,比如上下文學(xué)習(xí)。為了區(qū)別于 PLM(預(yù)訓(xùn)練語言模型),這類模型被稱為大型語言模型(LLMs)。

LLM 的涌現(xiàn)能力被正式定義為「在小型模型中不存在但在大型模型中出現(xiàn)的能力」,這是 LLM 與以前的 PLM 區(qū)分開來的最顯著特征之一。當(dāng)出現(xiàn)這種新的能力時(shí),它還引入了一個(gè)顯著的特征:當(dāng)規(guī)模達(dá)到一定水平時(shí),性能顯著高于隨機(jī)的狀態(tài)。以此類推,這種新模式與物理學(xué)中的相變現(xiàn)象密切相關(guān)。原則上,這種能力也可以與一些復(fù)雜的任務(wù)有關(guān),而人們更關(guān)心可以應(yīng)用于解決多個(gè)任務(wù)的通用能力。這里簡(jiǎn)要介紹了 LLM 的三種代表性的涌現(xiàn)能力:
上下文學(xué)習(xí)。GPT-3 正式引入了上下文學(xué)習(xí)能力:假設(shè)語言模型已經(jīng)提供了自然語言指令和多個(gè)任務(wù)描述,它可以通過完成輸入文本的詞序列來生成測(cè)試實(shí)例的預(yù)期輸出,而無需額外的訓(xùn)練或梯度更新。
指令遵循。通過對(duì)自然語言描述(即指令)格式化的多任務(wù)數(shù)據(jù)集的混合進(jìn)行微調(diào),LLM 在微小的任務(wù)上表現(xiàn)良好,這些任務(wù)也以指令的形式所描述。這種能力下,指令調(diào)優(yōu)使 LLM 能夠在不使用顯式樣本的情況下通過理解任務(wù)指令來執(zhí)行新任務(wù),這可以大大提高泛化能力。
循序漸進(jìn)的推理。對(duì)于小語言模型,通常很難解決涉及多個(gè)推理步驟的復(fù)雜任務(wù),例如數(shù)學(xué)學(xué)科單詞問題。同時(shí),通過思維鏈推理策略,LLM 可以通過利用涉及中間推理步驟的 prompt 機(jī)制來解決此類任務(wù)得出最終答案。據(jù)推測(cè),這種能力可能是通過代碼訓(xùn)練獲得的。
數(shù)據(jù)


算力
美國(guó)市場(chǎng)研究機(jī)構(gòu)TrendForce在3月1日的報(bào)告中測(cè)算稱,處理1800億個(gè)參數(shù)的GPT-3.5大模型,需要的GPU芯片數(shù)量高達(dá)2萬枚,未來GPT大模型商業(yè)化所需的GPU 芯片數(shù)量甚至超過3萬枚。
自然語言處理發(fā)展到大型語言模型的歷程分為五個(gè)階段:規(guī)則、統(tǒng)計(jì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、預(yù)訓(xùn)練、大型語言模型。
機(jī)器翻譯是NLP中難度最高、綜合性最強(qiáng)的任務(wù)。因此張俊林以機(jī)器翻譯任務(wù)為例來對(duì)比不同階段的特點(diǎn)以及技術(shù)棧、數(shù)據(jù)的變化,以此展示NLP如何一步步演進(jìn)。
規(guī)則階段大致從1956年到1992年,基于規(guī)則的機(jī)器翻譯系統(tǒng)是在內(nèi)部把各種功能的模塊串到一起,由人先從數(shù)據(jù)中獲取知識(shí),歸納出規(guī)則,寫出來教給機(jī)器,然后機(jī)器來執(zhí)行這套規(guī)則,從而完成特定任務(wù)。
統(tǒng)計(jì)機(jī)器學(xué)習(xí)階段大致從1993年到2012年,機(jī)器翻譯系統(tǒng)可拆成語言模型和翻譯模型,這里的語言模型與現(xiàn)在的GPT-3/3.5的技術(shù)手段一模一樣。該階段相比上一階段突變性較高,由人轉(zhuǎn)述知識(shí)變成機(jī)器自動(dòng)從數(shù)據(jù)中學(xué)習(xí)知識(shí),主流技術(shù)包括SVM、HMM、MaxEnt、CRF、LM等,當(dāng)時(shí)人工標(biāo)注數(shù)據(jù)量在百萬級(jí)左右。
預(yù)訓(xùn)練階段是從2018年到2022年,相比之前的最大變化是加入自監(jiān)督學(xué)習(xí),張俊林認(rèn)為這是NLP領(lǐng)域最杰出的貢獻(xiàn),將可利用數(shù)據(jù)從標(biāo)注數(shù)據(jù)拓展到了非標(biāo)注數(shù)據(jù)。該階段系統(tǒng)可分為預(yù)訓(xùn)練和微調(diào)兩個(gè)階段,將預(yù)訓(xùn)練數(shù)據(jù)量擴(kuò)大3到5倍,典型技術(shù)棧包括Encoder-Decoder、Transformer、Attention等。
大型語言模型階段從2023年起,目的是讓機(jī)器能聽懂人的命令、遵循人的價(jià)值觀。其特性是在第一個(gè)階段把過去的兩個(gè)階段縮成一個(gè)預(yù)訓(xùn)練階段,第二階段轉(zhuǎn)換成與人的價(jià)值觀對(duì)齊,而不是向領(lǐng)域遷移。這個(gè)階段的突變性是很高的,已經(jīng)從專用任務(wù)轉(zhuǎn)向通用任務(wù),或是以自然語言人機(jī)接口的方式呈現(xiàn)。