Google 研究者發(fā)表了題為“大型語言模型的涌現(xiàn)能力”(Emergent Abilities of Large Language Models)的論文,考察了以 GPT-3 為代表的語言模型,發(fā)現(xiàn)語言模型的表現(xiàn)并非隨著模型規(guī)模增加而線性增長,而是存在臨界點,只有當模型大到超過特定的臨界值,才會涌現(xiàn)出較小的模型不具備的能力。語言模型的這種涌現(xiàn)能力意味著,大型語言模型可能進一步擴展語言模型的功能。
GPT-自回歸語言模型
RLHF
GPT-1
GPT-2
GPT-3
InstructGPT
1.使用人類更喜歡的數(shù)據(jù)去做訓練(ALIGN)
2.應(yīng)用強化學習提升性能天花板。
人工打分(強化學習)
吵一架 -5
跟他道歉 -1
認錯要快 +3
ChatGPT 訓練流程
監(jiān)督學習(SFT)
收集人工編寫的回答
獎勵模型(RM)
從問題庫中選擇問題,重復(fù)生成四次回復(fù),人工排序,利用排序結(jié)果訓練獎勵模型。
LossFunction:Pair-Wise Loss
RLHF
訓練細節(jié):GPT-3、2 Epochs、
強化學習算法 PPO
1.在每個 token 上都計算一個和第一步訓練出的生成模型之間的 KL-Divergence,其目的是希望不要強化學習過程中不要太過于偏離最開始的生成模型。
2.PPO-PTX,在訓練的同時加入一些通用預(yù)訓練任務(wù),以維持在通用 NLP 任務(wù)上的性能。