ChatGPT的前身:InstructGPT

ChatGPT的論文目前還沒有發(fā)布,在其官方博客(https://openai.com/blog/chatgpt/)中對方法有這樣的簡述:

我們使用來自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)來訓(xùn)練這個模型,使用與InstructionGPT相同的方法,但數(shù)據(jù)收集設(shè)置略有不同。我們使用有監(jiān)督的微調(diào)訓(xùn)練了一個初始模型:人工智能訓(xùn)練師提供對話,他們扮演用戶和人工智能助手的雙方角色。我們讓訓(xùn)練師獲得模型書面建議,以幫助他們撰寫回復(fù)。我們將這個新的對話數(shù)據(jù)集與InstructGPT數(shù)據(jù)集混合,并將其轉(zhuǎn)換為對話格式。為了創(chuàng)建強(qiáng)化學(xué)習(xí)的獎勵模型,我們需要收集比較數(shù)據(jù),其中包括兩個或多個按質(zhì)量排序的模型響應(yīng)。為了收集這些數(shù)據(jù),我們進(jìn)行了AI訓(xùn)練師與聊天機(jī)器人的對話。我們隨機(jī)選擇了一個模型撰寫的消息,抽樣了幾個備選的完成,并讓AI訓(xùn)練師對其進(jìn)行排名。使用這些獎勵模型,我們可以使用近端策略優(yōu)化對模型進(jìn)行微調(diào)。我們對這個過程進(jìn)行了多次迭代。

We trained this model using Reinforcement Learning from Human Feedback (RLHF), using the same methods as?InstructGPT, but with slight differences in the data collection setup. We trained an initial model using supervised fine-tuning: human AI trainers provided conversations in which they played both sides—the user and an AI assistant. We gave the trainers access to model-written suggestions to help them compose their responses. We mixed this new dialogue dataset with the InstructGPT dataset, which we transformed into a dialogue?format.To create a reward model for reinforcement learning, we needed to collect comparison data, which consisted of two or more model responses ranked by quality. To collect this data, we took conversations that AI trainers had with the chatbot. We randomly selected a model-written message, sampled several alternative completions, and had AI trainers rank them. Using these reward models, we can fine-tune the model using?Proximal Policy Optimization. We performed several iterations of this?process.

來源:https://mp.weixin.qq.com/s/7N3HveaIfn2N-zKjBoRL1A


RLHF代碼可參考:https://github.com/lucidrains/PaLM-rlhf-pytorch?????????5k stars

InstructGPT

標(biāo)題:Training language models to follow instructions with human feedback

https://arxiv.org/abs/2203.02155

https://openai.com/blog/instruction-following/

使語言模型更大并不意味著它們能夠更好地遵循用戶的意圖。例如,大型語言模型可以生成不真實、有毒或?qū)τ脩艉翢o幫助的輸出。換句話說,這些模型與其用戶不一致。在這篇文章中,我們展示了一種通過微調(diào)人類反饋來調(diào)整語言模型和用戶在廣泛任務(wù)中的意圖的方法。從一組標(biāo)注者編寫的提示和通過OpenAI API提交的提示開始,我們收集了所需模型行為的標(biāo)注者演示數(shù)據(jù)集,我們使用該數(shù)據(jù)集使用監(jiān)督學(xué)習(xí)來微調(diào)GPT-3。然后,我們收集了一個模型輸出排序的數(shù)據(jù)集,我們使用該數(shù)據(jù)集使用來自人類反饋的強(qiáng)化學(xué)習(xí)來進(jìn)一步微調(diào)這個受監(jiān)督的模型。我們將生成的模型稱為InstructGPT。在對我們的即時分布的人類評估中,1.3B參數(shù)InstructGPT模型的輸出優(yōu)于175B GPT-3的輸出,盡管其參數(shù)少了100倍。此外,InstructionGPT模型顯示了真實性的提高和有毒輸出生成的減少,同時在公共NLP數(shù)據(jù)集上具有最小的性能回歸。盡管InstructGPT仍然會犯一些簡單的錯誤,但我們的結(jié)果表明,對人類反饋進(jìn)行微調(diào)是使語言模型與人類意圖保持一致的一個有希望的方向。

https://cdn.openai.com/instruction-following/draft-20220126f/methods.svg

http://zx.gd/academic/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 簡介 2022年11月,OpenAI推出了一款A(yù)I聊天機(jī)器人程序,其強(qiáng)大的問答能力瞬間引爆全網(wǎng)關(guān)注度。 組成部分:...
    臻甄閱讀 1,971評論 0 0
  • Learning Transferable Visual Models From Natural Language...
    Valar_Morghulis閱讀 4,049評論 0 0
  • 目錄 一、前言 二、如何理解BERT模型 三、BERT模型解析 1、論文的主要貢獻(xiàn)2、模型架構(gòu)3、關(guān)鍵創(chuàng)新3、實驗...
    奇點機(jī)智閱讀 95,210評論 1 35
  • 一 前言 從現(xiàn)在的大趨勢來看,使用某種模型預(yù)訓(xùn)練一個語言模型看起來是一種比較靠譜的方法。從之前AI2的 ELMo,...
    Jessie_83bf閱讀 1,851評論 1 0
  • Learning Transferable Visual Models From Natural Language...
    Valar_Morghulis閱讀 2,478評論 0 0

友情鏈接更多精彩內(nèi)容