· 標(biāo)題：OpenChat: Advancing Open-source Language Models with Mixed-Quality Data
· 鏈接： https://arxiv.org/abs/2309.11235
· 代碼： https://github.com/imoneoi/openchat
· 模型： https://huggingface.co/openchat
· 演示： https://openchat.team/zh

Motivation

目前的SFT和RLHF方法都忽略了訓(xùn)練數(shù)據(jù)的質(zhì)量，或是需要昂貴的人工標(biāo)注
探索一個(gè)新的可能的微調(diào)方案，讓開源的LLMs可以使用簡(jiǎn)單的混合數(shù)據(jù)（高質(zhì)量混合中等質(zhì)量）提升效果（而非定制化的偏好數(shù)據(jù)）
所謂混合數(shù)據(jù)，就是把GPT3.5（中等質(zhì)量）和GPT4（高質(zhì)量）的數(shù)據(jù)混合在一起。

ShareGPT dataset，3.5和4的數(shù)據(jù)分別采樣128個(gè)對(duì)話，使用GPT4來(lái)打分

Contribution

提供了一個(gè)小數(shù)據(jù)集，包含高質(zhì)量對(duì)話數(shù)據(jù)，和一個(gè)大數(shù)據(jù)集，包含次優(yōu)的對(duì)話數(shù)據(jù)。且并不是偏好數(shù)據(jù)
提出了一個(gè)新的嗯OpenChat framwork來(lái)平衡混合質(zhì)量數(shù)據(jù)：Class Conditioned-RLFT(C-RLFT)

Conditioned-RLFT

Key Idea

定義了 class-conditioned dataset and reward，使用來(lái)自GPT3.5和4的兩個(gè)公開數(shù)據(jù)集，手工定義很粗糙的reward（coarse-grained reward）： $\alpha < 1$
通過C(onditioned)-RLFT來(lái)做微調(diào)，主要包括兩個(gè)關(guān)鍵因素：

（1）用明顯的prompt tokens來(lái)區(qū)別不同的訓(xùn)練樣本。

（2）為了彌補(bǔ)coarse-grained reward的缺陷，跟OfflineRL那樣用KKT條件推導(dǎo)了帶KL限制的最大化reward的優(yōu)化方式，把一個(gè)帶限制的最大化目標(biāo)問題，一個(gè)簡(jiǎn)單的獎(jiǎng)勵(lì)加權(quán)回歸目標(biāo)問題。

本質(zhì)上還是考慮到①目前開源的LLMs性能甚至比次優(yōu)數(shù)據(jù)GPT3.5還要差，②（1）中的數(shù)據(jù)構(gòu)造方式能幫助模型區(qū)別高質(zhì)量回答和低質(zhì)量回答

Experiment $ Analysis

效果1：在AlpacaEval，MT-bench上表現(xiàn)達(dá)到了13b模型的巔峰，Vicuna-bench上僅次于llama2-chat，openchat-13b是基于llama2基座微調(diào)的。相比較大于13b的模型也毫不遜色。

Table 1
效果2：?jiǎn)为?dú)拉出來(lái)MT-bench上的表現(xiàn)，openchat-13甚至比llama-2-70b都要強(qiáng)，比好幾個(gè)大于13b的模型都強(qiáng)。另外單獨(dú)分析AGIEval的acc，可以看到雖然openchat-13b在Vicuna-bench上次于llama2-chat，但llama2-chat還是有比較大的能力不均衡問題的，不如openchat-13b的能力全面

Fig 2
消融實(shí)驗(yàn)：如果without coarse-grained reward的設(shè)定，把所有數(shù)據(jù)都當(dāng)做同等reward來(lái)訓(xùn)練，可以看到性能都有所下降；如果without condition的Prompt提示，無(wú)法分別那種回答來(lái)自低質(zhì)量數(shù)據(jù)，也會(huì)損害性能。另外也分別在全量數(shù)據(jù)集、3.5、4的這3個(gè)數(shù)據(jù)集上分別SFT，效果都不如論文的方案。

image.png
經(jīng)過C-RLFT之后的模型對(duì)于GPT4和GPT3.5的數(shù)據(jù)更能區(qū)別：
即便GPT4的數(shù)據(jù)量占比比較少，但GPT4數(shù)據(jù)（高質(zhì)量）量的大小更加影響最終效果。
測(cè)試了不同的Prompt類型，在assistant前面增加標(biāo)識(shí)的性能更好。