OpenChat

· 標(biāo)題:OpenChat: Advancing Open-source Language Models with Mixed-Quality Data
· 鏈接: https://arxiv.org/abs/2309.11235
· 代碼: https://github.com/imoneoi/openchat
· 模型: https://huggingface.co/openchat
· 演示: https://openchat.team/zh

Motivation

  • 目前的SFT和RLHF方法都忽略了訓(xùn)練數(shù)據(jù)的質(zhì)量,或是需要昂貴的人工標(biāo)注
  • 探索一個(gè)新的可能的微調(diào)方案,讓開源的LLMs可以使用簡(jiǎn)單的混合數(shù)據(jù)(高質(zhì)量混合中等質(zhì)量)提升效果(而非定制化的偏好數(shù)據(jù))
  • 所謂混合數(shù)據(jù),就是把GPT3.5(中等質(zhì)量)和GPT4(高質(zhì)量)的數(shù)據(jù)混合在一起。
    ShareGPT dataset,3.5和4的數(shù)據(jù)分別采樣128個(gè)對(duì)話,使用GPT4來(lái)打分

Contribution

  • 提供了一個(gè)小數(shù)據(jù)集,包含高質(zhì)量對(duì)話數(shù)據(jù),和一個(gè)大數(shù)據(jù)集,包含次優(yōu)的對(duì)話數(shù)據(jù)。且并不是偏好數(shù)據(jù)
  • 提出了一個(gè)新的嗯OpenChat framwork來(lái)平衡混合質(zhì)量數(shù)據(jù):Class Conditioned-RLFT(C-RLFT)


    Conditioned-RLFT

Key Idea

  • 定義了 class-conditioned dataset and reward,使用來(lái)自GPT3.5和4的兩個(gè)公開數(shù)據(jù)集,手工定義很粗糙的reward(coarse-grained reward):\alpha < 1
  • 通過C(onditioned)-RLFT來(lái)做微調(diào),主要包括兩個(gè)關(guān)鍵因素:

    (1)用明顯的prompt tokens來(lái)區(qū)別不同的訓(xùn)練樣本。

(2)為了彌補(bǔ)coarse-grained reward的缺陷,跟OfflineRL那樣用KKT條件推導(dǎo)了帶KL限制的最大化reward的優(yōu)化方式,把一個(gè)帶限制的最大化目標(biāo)問題,一個(gè)簡(jiǎn)單的獎(jiǎng)勵(lì)加權(quán)回歸目標(biāo)問題。
  • 本質(zhì)上還是考慮到①目前開源的LLMs性能甚至比次優(yōu)數(shù)據(jù)GPT3.5還要差,②(1)中的數(shù)據(jù)構(gòu)造方式能幫助模型區(qū)別高質(zhì)量回答和低質(zhì)量回答

Experiment $ Analysis

  • 效果1:在AlpacaEval,MT-bench上表現(xiàn)達(dá)到了13b模型的巔峰,Vicuna-bench上僅次于llama2-chat,openchat-13b是基于llama2基座微調(diào)的。相比較大于13b的模型也毫不遜色。
    Table 1
  • 效果2:?jiǎn)为?dú)拉出來(lái)MT-bench上的表現(xiàn),openchat-13甚至比llama-2-70b都要強(qiáng),比好幾個(gè)大于13b的模型都強(qiáng)。另外單獨(dú)分析AGIEval的acc,可以看到雖然openchat-13b在Vicuna-bench上次于llama2-chat,但llama2-chat還是有比較大的能力不均衡問題的,不如openchat-13b的能力全面
    Fig 2
  • 消融實(shí)驗(yàn):如果without coarse-grained reward的設(shè)定,把所有數(shù)據(jù)都當(dāng)做同等reward來(lái)訓(xùn)練,可以看到性能都有所下降;如果without condition的Prompt提示,無(wú)法分別那種回答來(lái)自低質(zhì)量數(shù)據(jù),也會(huì)損害性能。另外也分別在全量數(shù)據(jù)集、3.5、4的這3個(gè)數(shù)據(jù)集上分別SFT,效果都不如論文的方案。
    image.png
  • 經(jīng)過C-RLFT之后的模型對(duì)于GPT4和GPT3.5的數(shù)據(jù)更能區(qū)別:
  • 即便GPT4的數(shù)據(jù)量占比比較少,但GPT4數(shù)據(jù)(高質(zhì)量)量的大小更加影響最終效果。
  • 測(cè)試了不同的Prompt類型,在assistant前面增加標(biāo)識(shí)的性能更好。

參考

https://air.tsinghua.edu.cn/info/1007/2174.htm

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容