ChatGPT

Google 研究者發(fā)表了題為“大型語言模型的涌現(xiàn)能力”(Emergent Abilities of Large Language Models)的論文,考察了以 GPT-3 為代表的語言模型,發(fā)現(xiàn)語言模型的表現(xiàn)并非隨著模型規(guī)模增加而線性增長,而是存在臨界點,只有當模型大到超過特定的臨界值,才會涌現(xiàn)出較小的模型不具備的能力。語言模型的這種涌現(xiàn)能力意味著,大型語言模型可能進一步擴展語言模型的功能。

GPT-自回歸語言模型

RLHF


GPT-1

GPT-2

GPT-3

InstructGPT

1.使用人類更喜歡的數(shù)據(jù)去做訓練(ALIGN)

2.應(yīng)用強化學習提升性能天花板。


人工打分(強化學習)

吵一架 -5

跟他道歉 -1

認錯要快 +3


ChatGPT 訓練流程

監(jiān)督學習(SFT)

收集人工編寫的回答

獎勵模型(RM)

從問題庫中選擇問題,重復(fù)生成四次回復(fù),人工排序,利用排序結(jié)果訓練獎勵模型。

LossFunction:Pair-Wise Loss

RLHF

訓練細節(jié):GPT-3、2 Epochs、


強化學習算法 PPO

1.在每個 token 上都計算一個和第一步訓練出的生成模型之間的 KL-Divergence,其目的是希望不要強化學習過程中不要太過于偏離最開始的生成模型。

2.PPO-PTX,在訓練的同時加入一些通用預(yù)訓練任務(wù),以維持在通用 NLP 任務(wù)上的性能。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容