a√1区2区在线观看,www污网站

# 強化自訓(xùn)練（ReST）：讓大語言模型更懂你的“心” ![](https://upload-images.jianshu.io/upload_images/17294212-acb1e0e6fa1e332a.png) 強化自我訓(xùn)練（Reinforced Self-Training，ReST）是一種簡單的算法，它能讓大語言模型（LLM）的輸出更符合人類的偏好。這種算法的靈感來源于不斷發(fā)展的批量強化學(xué)習(xí)（RL）。簡單來說，先給大語言模型設(shè)定一個初始策略，ReST就可以根據(jù)這個策略生成樣本，從而創(chuàng)建一個數(shù)據(jù)集。然后，利用離線強化學(xué)習(xí)算法，借助這個數(shù)據(jù)集來優(yōu)化大語言模型的策略。 ![](https://upload-images.jianshu.io/upload_images/17294212-ca0de04c34a6ac2e.png) ## ReST方法和傳統(tǒng)的在線或離線強化學(xué)習(xí)人類反饋優(yōu)化（RLHF）方法相比，ReST有不少厲害的地方： 1. **計算負擔小**：ReST在多個改進（Improve）步驟中利用了增長（Grow）步驟的輸出結(jié)果，不像在線強化學(xué)習(xí)那樣計算量巨大，大大減輕了計算負擔。 2. **不受原始數(shù)據(jù)局限**：在離線強化學(xué)習(xí)里，策略的好壞常常受原始數(shù)據(jù)集質(zhì)量的限制。但ReST不一樣，在Grow步驟中，新的訓(xùn)練數(shù)據(jù)是從優(yōu)化后的策略里采樣得到的，所以策略質(zhì)量不受原始數(shù)據(jù)的束縛。 3. **便于檢查數(shù)據(jù)與診斷問題**：由于Grow和Improve步驟相互獨立，檢查數(shù)據(jù)質(zhì)量、診斷對齊問題（比如獎勵黑客攻擊）就變得容易多了。 4. **方法簡單穩(wěn)定**：ReST算法簡單、運行穩(wěn)定，需要調(diào)整的超參數(shù)也很少。 ![](https://upload-images.jianshu.io/upload_images/17294212-5cd1b37161129361.png) ## ReST包含兩個循環(huán) 1. **內(nèi)循環(huán)（Improve）**：在這個循環(huán)里，策略會在固定的數(shù)據(jù)集上進行優(yōu)化。 2. **外循環(huán)（Grow）**：通過從最新的策略中采樣數(shù)據(jù)，讓數(shù)據(jù)集不斷擴充。具體的步驟如下： 1. **增長（Grow，簡稱G）**：一開始，語言模型采用監(jiān)督策略，針對每個上下文生成多個輸出預(yù)測，以此擴充訓(xùn)練數(shù)據(jù)集。 2. **改進（Improve，簡稱I）**：用評分函數(shù)給擴充后的數(shù)據(jù)集進行排序和篩選。在實驗中，研究人員會根據(jù)人類偏好訓(xùn)練一個獎勵模型，用它來作為評分函數(shù)。接著，用離線強化學(xué)習(xí)的目標，在篩選后的數(shù)據(jù)集上對語言模型進行微調(diào)。這個微調(diào)的過程可以通過不斷提高篩選閾值來重復(fù)進行。最后優(yōu)化好的策略會被用于下一個Grow步驟。 ## ReST算法 ReST算法把傳統(tǒng)強化學(xué)習(xí)流程里的數(shù)據(jù)集增長和策略改進拆分成了獨立的離線階段。首先，研究人員會在給定的序列對數(shù)據(jù)集$D$上，用負對數(shù)似然損失（NLL loss）訓(xùn)練一個初始模型$\pi_{\theta}(y|x)$，這個模型的作用是把輸入序列$x$映射成輸出序列$y$。然后，進入Grow步驟，創(chuàng)建一個新的數(shù)據(jù)集$D_g$，它會用模型生成的樣本擴充初始訓(xùn)練數(shù)據(jù)集。 Grow步驟就相當于強化學(xué)習(xí)里的行動或數(shù)據(jù)生成步驟。研究人員從當前策略$\pi_{\theta}$中采樣出許多輸出序列，即對于$x \sim D$，有$y \sim \pi_{\theta}(y|x)$，從而創(chuàng)建出一個軌跡增強數(shù)據(jù)集$D_g$。接著，用獎勵函數(shù)$R(x, y)$給新的序列數(shù)據(jù)集打分，把獎勵分數(shù)高于閾值的數(shù)據(jù)點挑出來，用它們來更新策略。策略優(yōu)化后，又可以生成質(zhì)量更好的新樣本數(shù)據(jù)集。在Improve步驟中，目標是用新的數(shù)據(jù)集$D_g$來微調(diào)策略$\pi_{\theta}$。先定義一個過濾函數(shù)，只保留獎勵高于特定閾值$\tau$的樣本。然后，用監(jiān)督學(xué)習(xí)損失或離線強化學(xué)習(xí)損失$L(x, y;\theta)$在篩選后的數(shù)據(jù)上微調(diào)當前最優(yōu)策略。在多次執(zhí)行Improve步驟時，不斷提高過濾閾值，即$\tau_1 < \cdots < \tau_{N - 1} < \tau_N$。隨著閾值升高，篩選出的數(shù)據(jù)子集質(zhì)量會提高，但規(guī)模會變小。因為大語言模型很容易在小數(shù)據(jù)集上出現(xiàn)過擬合，所以每次微調(diào)新策略時，都會在前一個策略的基礎(chǔ)上，用更低的學(xué)習(xí)率進行。在高質(zhì)量的數(shù)據(jù)子集上連續(xù)微調(diào)策略$\{\pi_{\theta_k}\}_{k\geq1}$，就能保證在固定數(shù)據(jù)集$D_g$上實現(xiàn)策略的優(yōu)化。如果從策略$\{\pi_{\theta_k}\}_{k\geq1}$中采樣，生成樣本的平均獎勵會不斷增加。由于在Grow步驟中從策略采樣的計算成本很高，所以每次Grow步驟之后，會執(zhí)行多個Improve步驟，這樣就能把單次數(shù)據(jù)集生成的成本分攤到多個Improve步驟中。 ![](https://upload-images.jianshu.io/upload_images/17294212-e02401e13c446349.png) ## 實驗研究人員用ReST在機器翻譯任務(wù)上進行了實驗，使用了三個數(shù)據(jù)集：IWSLT 2014、WMT 2020和Web Domain數(shù)據(jù)集。通過驗證集上的平均獎勵分數(shù)和人工評估來衡量模型的性能。同時，在ReST框架內(nèi)測試了不同的離線強化學(xué)習(xí)損失。 ![](https://upload-images.jianshu.io/upload_images/17294212-d55e86b136a9cf3e.png) 1. **多個改進步驟的ReST**：在所有數(shù)據(jù)集上，ReST中的多個改進步驟都能持續(xù)提高獎勵模型的分數(shù)。 2. **兩個增長步驟的ReST**：額外的增長步驟可以進一步提升獎勵模型的分數(shù)，這充分體現(xiàn)了迭代擴展訓(xùn)練數(shù)據(jù)的優(yōu)勢。 ![](https://upload-images.jianshu.io/upload_images/17294212-d3fd52516935cc9d.png) ![](https://upload-images.jianshu.io/upload_images/17294212-68918bdeca1496ca.png) 3. **WMT 2020中文到英文（測試）**：在不同的數(shù)據(jù)集和語言對任務(wù)中，ReST的表現(xiàn)都遠超監(jiān)督學(xué)習(xí)，哪怕只經(jīng)過一個增長步驟也是如此。 4. **BC損失**：在ReST框架里，BC損失的表現(xiàn)通常比其他離線強化學(xué)習(xí)損失更好。 ![](https://upload-images.jianshu.io/upload_images/17294212-c6481ef0e62afeed.png) 5. **推理時的N次最佳采樣**：和監(jiān)督模型類似，ReST在推理時采用N次最佳采樣的方式也能獲益，這說明它能保持樣本的多樣性。 ![](https://upload-images.jianshu.io/upload_images/17294212-5d953fc63cee7795.png) 6. **IWSLT 2014的在線RL**：在訓(xùn)練數(shù)據(jù)量相近的情況下，ReST獲得的獎勵比在線強化學(xué)習(xí)（PPO）更高，而且避免了在線強化學(xué)習(xí)中BLEU分數(shù)大幅下降的問題，說明它受到“獎勵黑客攻擊”的影響更小。 7. **基于學(xué)習(xí)獎勵和人工評估的性能比較**：人工評估顯示，所有ReST變體的表現(xiàn)都優(yōu)于基線BC模型。不過，基于人工評估和獎勵模型分數(shù)的模型排名存在差異。這表明，學(xué)習(xí)得到的獎勵模型并不能完美代表人類的偏好，尤其是隨著增長/改進步驟的增加，策略與行為模型的差異越來越大時，這種不完美就更明顯了。 >論文 Reinforced Self-Training (ReST) for Language Modeling https://arxiv.org/abs/2308.08998 >近日熱文：[全網(wǎng)最全的神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)原理（代碼和公式）直觀解釋](https://mp.weixin.qq.com/s/ITFeM-RUVs9k9Kw4njl9KQ?token=992101443&lang=zh_CN) 歡迎關(guān)注知乎和公眾號的專欄內(nèi)容 [LLM架構(gòu)專欄](https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzU5OTk5OTg4Ng==&action=getalbum&album_id=3803710040624594945#wechat_redirect) [知乎LLM專欄](https://zhuanlan.zhihu.com/column/c_1860259327224446976) [知乎【**柏企**】](https://www.zhihu.com/people/cbq-91) 公眾號【**柏企科技說**】【**柏企閱文**】本文由[mdnice](https://mdnice.com/?platform=6)多平臺發(fā)布

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文解讀 || 強化自訓(xùn)練（ReST）：讓大語言模型更懂你的“心”

論文解讀 || 強化自訓(xùn)練（ReST）：讓大語言模型更懂你的“心”

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

論文解讀 || 強化自訓(xùn)練（ReST）：讓大語言模型更懂你的“心”

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av