· 標(biāo)題:OpenChat: Advancing Open-source Language Models with Mixed-Quality Data
· 鏈接: https://arxiv.org/abs/2309.11235
· 代碼: https://github.com/imoneoi/openchat
· 模型: https://huggingface.co/openchat
· 演示: https://openchat.team/zh
Motivation
- 目前的SFT和RLHF方法都忽略了訓(xùn)練數(shù)據(jù)的質(zhì)量,或是需要昂貴的人工標(biāo)注
- 探索一個(gè)新的可能的微調(diào)方案,讓開源的LLMs可以使用簡(jiǎn)單的混合數(shù)據(jù)(高質(zhì)量混合中等質(zhì)量)提升效果(而非定制化的偏好數(shù)據(jù))
-
所謂混合數(shù)據(jù),就是把GPT3.5(中等質(zhì)量)和GPT4(高質(zhì)量)的數(shù)據(jù)混合在一起。ShareGPT dataset,3.5和4的數(shù)據(jù)分別采樣128個(gè)對(duì)話,使用GPT4來(lái)打分
Contribution
- 提供了一個(gè)小數(shù)據(jù)集,包含高質(zhì)量對(duì)話數(shù)據(jù),和一個(gè)大數(shù)據(jù)集,包含次優(yōu)的對(duì)話數(shù)據(jù)。且并不是偏好數(shù)據(jù)
-
提出了一個(gè)新的嗯OpenChat framwork來(lái)平衡混合質(zhì)量數(shù)據(jù):Class Conditioned-RLFT(C-RLFT)
Conditioned-RLFT
Key Idea
- 定義了 class-conditioned dataset and reward,使用來(lái)自GPT3.5和4的兩個(gè)公開數(shù)據(jù)集,手工定義很粗糙的reward(coarse-grained reward):
-
通過C(onditioned)-RLFT來(lái)做微調(diào),主要包括兩個(gè)關(guān)鍵因素:
(1)用明顯的prompt tokens來(lái)區(qū)別不同的訓(xùn)練樣本。


- 本質(zhì)上還是考慮到①目前開源的LLMs性能甚至比次優(yōu)數(shù)據(jù)GPT3.5還要差,②(1)中的數(shù)據(jù)構(gòu)造方式能幫助模型區(qū)別高質(zhì)量回答和低質(zhì)量回答
Experiment $ Analysis
-
效果1:在AlpacaEval,MT-bench上表現(xiàn)達(dá)到了13b模型的巔峰,Vicuna-bench上僅次于llama2-chat,openchat-13b是基于llama2基座微調(diào)的。相比較大于13b的模型也毫不遜色。Table 1
-
效果2:?jiǎn)为?dú)拉出來(lái)MT-bench上的表現(xiàn),openchat-13甚至比llama-2-70b都要強(qiáng),比好幾個(gè)大于13b的模型都強(qiáng)。另外單獨(dú)分析AGIEval的acc,可以看到雖然openchat-13b在Vicuna-bench上次于llama2-chat,但llama2-chat還是有比較大的能力不均衡問題的,不如openchat-13b的能力全面Fig 2
-
消融實(shí)驗(yàn):如果without coarse-grained reward的設(shè)定,把所有數(shù)據(jù)都當(dāng)做同等reward來(lái)訓(xùn)練,可以看到性能都有所下降;如果without condition的Prompt提示,無(wú)法分別那種回答來(lái)自低質(zhì)量數(shù)據(jù),也會(huì)損害性能。另外也分別在全量數(shù)據(jù)集、3.5、4的這3個(gè)數(shù)據(jù)集上分別SFT,效果都不如論文的方案。image.png
-
經(jīng)過C-RLFT之后的模型對(duì)于GPT4和GPT3.5的數(shù)據(jù)更能區(qū)別:
-
即便GPT4的數(shù)據(jù)量占比比較少,但GPT4數(shù)據(jù)(高質(zhì)量)量的大小更加影響最終效果。
-
測(cè)試了不同的Prompt類型,在assistant前面增加標(biāo)識(shí)的性能更好。










