論文解讀 || 強化自訓(xùn)練(ReST):讓大語言模型更懂你的“心”

# 強化自訓(xùn)練(ReST):讓大語言模型更懂你的“心” ![](https://upload-images.jianshu.io/upload_images/17294212-acb1e0e6fa1e332a.png) 強化自我訓(xùn)練(Reinforced Self-Training,ReST)是一種簡單的算法,它能讓大語言模型(LLM)的輸出更符合人類的偏好。這種算法的靈感來源于不斷發(fā)展的批量強化學(xué)習(xí)(RL)。簡單來說,先給大語言模型設(shè)定一個初始策略,ReST就可以根據(jù)這個策略生成樣本,從而創(chuàng)建一個數(shù)據(jù)集。然后,利用離線強化學(xué)習(xí)算法,借助這個數(shù)據(jù)集來優(yōu)化大語言模型的策略。 ![](https://upload-images.jianshu.io/upload_images/17294212-ca0de04c34a6ac2e.png) ## ReST方法 和傳統(tǒng)的在線或離線強化學(xué)習(xí)人類反饋優(yōu)化(RLHF)方法相比,ReST有不少厲害的地方: 1. **計算負擔小**:ReST在多個改進(Improve)步驟中利用了增長(Grow)步驟的輸出結(jié)果,不像在線強化學(xué)習(xí)那樣計算量巨大,大大減輕了計算負擔。 2. **不受原始數(shù)據(jù)局限**:在離線強化學(xué)習(xí)里,策略的好壞常常受原始數(shù)據(jù)集質(zhì)量的限制。但ReST不一樣,在Grow步驟中,新的訓(xùn)練數(shù)據(jù)是從優(yōu)化后的策略里采樣得到的,所以策略質(zhì)量不受原始數(shù)據(jù)的束縛。 3. **便于檢查數(shù)據(jù)與診斷問題**:由于Grow和Improve步驟相互獨立,檢查數(shù)據(jù)質(zhì)量、診斷對齊問題(比如獎勵黑客攻擊)就變得容易多了。 4. **方法簡單穩(wěn)定**:ReST算法簡單、運行穩(wěn)定,需要調(diào)整的超參數(shù)也很少。 ![](https://upload-images.jianshu.io/upload_images/17294212-5cd1b37161129361.png) ## ReST包含兩個循環(huán) 1. **內(nèi)循環(huán)(Improve)**:在這個循環(huán)里,策略會在固定的數(shù)據(jù)集上進行優(yōu)化。 2. **外循環(huán)(Grow)**:通過從最新的策略中采樣數(shù)據(jù),讓數(shù)據(jù)集不斷擴充。 具體的步驟如下: 1. **增長(Grow,簡稱G)**:一開始,語言模型采用監(jiān)督策略,針對每個上下文生成多個輸出預(yù)測,以此擴充訓(xùn)練數(shù)據(jù)集。 2. **改進(Improve,簡稱I)**:用評分函數(shù)給擴充后的數(shù)據(jù)集進行排序和篩選。在實驗中,研究人員會根據(jù)人類偏好訓(xùn)練一個獎勵模型,用它來作為評分函數(shù)。接著,用離線強化學(xué)習(xí)的目標,在篩選后的數(shù)據(jù)集上對語言模型進行微調(diào)。這個微調(diào)的過程可以通過不斷提高篩選閾值來重復(fù)進行。最后優(yōu)化好的策略會被用于下一個Grow步驟。 ## ReST算法 ReST算法把傳統(tǒng)強化學(xué)習(xí)流程里的數(shù)據(jù)集增長和策略改進拆分成了獨立的離線階段。首先,研究人員會在給定的序列對數(shù)據(jù)集$D$上,用負對數(shù)似然損失(NLL loss)訓(xùn)練一個初始模型$\pi_{\theta}(y|x)$,這個模型的作用是把輸入序列$x$映射成輸出序列$y$。然后,進入Grow步驟,創(chuàng)建一個新的數(shù)據(jù)集$D_g$,它會用模型生成的樣本擴充初始訓(xùn)練數(shù)據(jù)集。 Grow步驟就相當于強化學(xué)習(xí)里的行動或數(shù)據(jù)生成步驟。研究人員從當前策略$\pi_{\theta}$中采樣出許多輸出序列,即對于$x \sim D$,有$y \sim \pi_{\theta}(y|x)$,從而創(chuàng)建出一個軌跡增強數(shù)據(jù)集$D_g$。接著,用獎勵函數(shù)$R(x, y)$給新的序列數(shù)據(jù)集打分,把獎勵分數(shù)高于閾值的數(shù)據(jù)點挑出來,用它們來更新策略。策略優(yōu)化后,又可以生成質(zhì)量更好的新樣本數(shù)據(jù)集。 在Improve步驟中,目標是用新的數(shù)據(jù)集$D_g$來微調(diào)策略$\pi_{\theta}$。先定義一個過濾函數(shù),只保留獎勵高于特定閾值$\tau$的樣本。然后,用監(jiān)督學(xué)習(xí)損失或離線強化學(xué)習(xí)損失$L(x, y;\theta)$在篩選后的數(shù)據(jù)上微調(diào)當前最優(yōu)策略。 在多次執(zhí)行Improve步驟時,不斷提高過濾閾值,即$\tau_1 < \cdots < \tau_{N - 1} < \tau_N$。隨著閾值升高,篩選出的數(shù)據(jù)子集質(zhì)量會提高,但規(guī)模會變小。因為大語言模型很容易在小數(shù)據(jù)集上出現(xiàn)過擬合,所以每次微調(diào)新策略時,都會在前一個策略的基礎(chǔ)上,用更低的學(xué)習(xí)率進行。在高質(zhì)量的數(shù)據(jù)子集上連續(xù)微調(diào)策略$\{\pi_{\theta_k}\}_{k\geq1}$,就能保證在固定數(shù)據(jù)集$D_g$上實現(xiàn)策略的優(yōu)化。如果從策略$\{\pi_{\theta_k}\}_{k\geq1}$中采樣,生成樣本的平均獎勵會不斷增加。由于在Grow步驟中從策略采樣的計算成本很高,所以每次Grow步驟之后,會執(zhí)行多個Improve步驟,這樣就能把單次數(shù)據(jù)集生成的成本分攤到多個Improve步驟中。 ![](https://upload-images.jianshu.io/upload_images/17294212-e02401e13c446349.png) ## 實驗 研究人員用ReST在機器翻譯任務(wù)上進行了實驗,使用了三個數(shù)據(jù)集:IWSLT 2014、WMT 2020和Web Domain數(shù)據(jù)集。通過驗證集上的平均獎勵分數(shù)和人工評估來衡量模型的性能。同時,在ReST框架內(nèi)測試了不同的離線強化學(xué)習(xí)損失。 ![](https://upload-images.jianshu.io/upload_images/17294212-d55e86b136a9cf3e.png) 1. **多個改進步驟的ReST**:在所有數(shù)據(jù)集上,ReST中的多個改進步驟都能持續(xù)提高獎勵模型的分數(shù)。 2. **兩個增長步驟的ReST**:額外的增長步驟可以進一步提升獎勵模型的分數(shù),這充分體現(xiàn)了迭代擴展訓(xùn)練數(shù)據(jù)的優(yōu)勢。 ![](https://upload-images.jianshu.io/upload_images/17294212-d3fd52516935cc9d.png) ![](https://upload-images.jianshu.io/upload_images/17294212-68918bdeca1496ca.png) 3. **WMT 2020中文到英文(測試)**:在不同的數(shù)據(jù)集和語言對任務(wù)中,ReST的表現(xiàn)都遠超監(jiān)督學(xué)習(xí),哪怕只經(jīng)過一個增長步驟也是如此。 4. **BC損失**:在ReST框架里,BC損失的表現(xiàn)通常比其他離線強化學(xué)習(xí)損失更好。 ![](https://upload-images.jianshu.io/upload_images/17294212-c6481ef0e62afeed.png) 5. **推理時的N次最佳采樣**:和監(jiān)督模型類似,ReST在推理時采用N次最佳采樣的方式也能獲益,這說明它能保持樣本的多樣性。 ![](https://upload-images.jianshu.io/upload_images/17294212-5d953fc63cee7795.png) 6. **IWSLT 2014的在線RL**:在訓(xùn)練數(shù)據(jù)量相近的情況下,ReST獲得的獎勵比在線強化學(xué)習(xí)(PPO)更高,而且避免了在線強化學(xué)習(xí)中BLEU分數(shù)大幅下降的問題,說明它受到“獎勵黑客攻擊”的影響更小。 7. **基于學(xué)習(xí)獎勵和人工評估的性能比較**:人工評估顯示,所有ReST變體的表現(xiàn)都優(yōu)于基線BC模型。不過,基于人工評估和獎勵模型分數(shù)的模型排名存在差異。這表明,學(xué)習(xí)得到的獎勵模型并不能完美代表人類的偏好,尤其是隨著增長/改進步驟的增加,策略與行為模型的差異越來越大時,這種不完美就更明顯了。 >論文 Reinforced Self-Training (ReST) for Language Modeling https://arxiv.org/abs/2308.08998 >近日熱文:[全網(wǎng)最全的神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)原理(代碼和公式)直觀解釋](https://mp.weixin.qq.com/s/ITFeM-RUVs9k9Kw4njl9KQ?token=992101443&lang=zh_CN) 歡迎關(guān)注知乎和公眾號的專欄內(nèi)容 [LLM架構(gòu)專欄](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzU5OTk5OTg4Ng==&action=getalbum&album_id=3803710040624594945#wechat_redirect) [知乎LLM專欄](https://zhuanlan.zhihu.com/column/c_1860259327224446976) [知乎【**柏企**】](https://www.zhihu.com/people/cbq-91) 公眾號【**柏企科技說**】【**柏企閱文**】 本文由[mdnice](https://mdnice.com/?platform=6)多平臺發(fā)布
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容