DeepSeek-R1:通過強化學習激勵 LLM 中的推理能力
DeepSeek-AI
research@deepseek.com
摘要
我們介紹了我們的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一種通過大規(guī)模強化學習(RL)訓練的模型,沒有監(jiān)督微調(diào)(SFT)作為初步步驟,展示了卓越的推理能力。通過 RL,DeepSeek-R1-Zero 自然出現(xiàn)了許多強大而有趣的推理行為。然而,它遇到了易讀性差、語言混合等挑戰(zhàn)。為了解決這些問題并進一步增強推理性能,我們引入了 DeepSeek-R1,它在 RL 之前融合了多階段訓練和冷啟動數(shù)據(jù)。DeepSeekR1 在推理任務(wù)上實現(xiàn)了與 OpenAI-o1-1217 相當?shù)男阅堋榱酥С盅芯可鐓^(qū),我們開源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Qwen 和 Llama 從 DeepSeek-R1 中提煉出的六個密集模型(1.5B、7B、8B、14B、32B、70B)。

目錄
1.簡介
????1.1.貢獻
????????訓練后:基礎(chǔ)模型上的大規(guī)模強化學習
????????提煉:小模型同樣強大
????1.2.評估結(jié)果摘要
2.方法
????2.1.概述
????2.2. DeepSeek-R1-Zero:基礎(chǔ)模型上的強化學習
????????2.2.1.強化學習算法
????????2.2.2.獎勵模型
????????2.2.3.培訓模板
????????2.2.4. DeepSeek-R1-Zero的性能、自我進化過程和頓悟時刻
????2.3.DeepSeek-R1:冷啟動強化學習
????????2.3.1.冷啟動
????????2.3.2.推理導向的強化學習
????????2.3.3.拒絕抽樣和監(jiān)督微調(diào)
????????2.3.4.適用于所有場景的強化學習
????2.4.提煉:賦予小模型推理能力
3.實驗
????3.1.DeepSeek-R1評估
????3.2.蒸餾模型評估
4.討論
? ? 4.1.蒸餾與強化學習
????4.2.失敗的嘗試
5.結(jié)論、局限性和未來工作
1.簡介
近年來,大型語言模型(LLM)經(jīng)歷了快速迭代和發(fā)展(Anthropic,2024年;Google,2024年;OpenAI,2024a),與通用人工智能(AGI)的差距逐漸縮小。
最近,后訓練已成為整個訓練流程的重要組成部分。事實證明,它可以提高推理任務(wù)的準確性,與社會價值觀保持一致,并適應(yīng)用戶偏好,同時與預(yù)訓練相比,它所需的計算資源相對較少。在推理能力方面,OpenAI的o1(OpenAI,2024b)系列模型首次通過增加Chain- ofThought推理過程的長度來引入推理時間擴展。這種方法在數(shù)學、編碼和科學推理等各種推理任務(wù)中取得了顯著的改進。然而,有效的測試時間擴展的挑戰(zhàn)仍然是研究界的一個懸而未決的問題。之前已有多項研究探索了各種方法,包括基于過程的獎勵模型(Lightman等人,2023年;Uesato等人,2022年:Wang等人,2023年)、強化學習(Kumar等人,2024年)以及蒙特卡洛樹搜索和波束搜索等搜索算法(Feng等人,2024年;Trinh等人,2024年;Xin等人,2024年)。然而,這些方法都沒有達到與OpenAI的o1系列模型相當?shù)耐ㄓ猛评硇阅堋?/p>
在本文中,我們邁出了使用純強化學習(RL)來提升語言模型推理能力的第一步。我們的目標是探索LLM在沒有任何監(jiān)督數(shù)據(jù)的情況下開發(fā)推理能力的潛力,重點關(guān)注它們通過純RL過程進行自我進化。具體來說,我們使用DeepSeek-V3-Base作為基礎(chǔ)模型,并使用 GRPO(Shao et al., 2024)作為RL框架來提高模型的推理性能。在訓練過程中,DeepSeek-R1-Zero自然而然地出現(xiàn)了許多強大而有趣的推理行為。經(jīng)過數(shù)千個RL步驟后,DeepSeek-R1-Zero在推理基準上表現(xiàn)出超強的性能。例如,AIME2024上的pass@1分數(shù)從15.6%提高到71.0%,通過多數(shù)投票,分數(shù)進一步提高到86.7%,與OpenAI-o1-0912的性能相當。
然而,DeepSeek-R1-Zero面臨著可讀性差、語言混合等挑戰(zhàn)。為了解決這些問題并進一步提升推理性能,我們推出了DeepSeek-R1,它結(jié)合了少量冷啟動數(shù)據(jù)和多階段訓練流程。具體來說,我們首先收集數(shù)千個冷啟動數(shù)據(jù)來微調(diào)DeepSeek-V3-Base模型,然后像DeepSeek-R1- Zero 一樣進行面向推理的強化學習。當強化學習過程接近收斂時,我們通過對強化學習檢查點進行拒絕采樣創(chuàng)建新的SFT數(shù)據(jù),結(jié)合DeepSeek-V3在寫作、事實問答和自我認知等領(lǐng)域的監(jiān)督數(shù)據(jù),然后重新訓練DeepSeek-V3-Base模型。在使用新數(shù)據(jù)進行微調(diào)之后,檢查點會經(jīng)歷額外的強化學習過程,其中會考慮來自所有場景的提示。經(jīng)過這些步驟,我們得到了一個稱為DeepSeek-R1的檢查點,其性能與OpenAI-o1-1217相當。
我們進一步探索從DeepSeek-R1到較小密集模型的蒸餾。使用Qwen2.5-32B(Qwen,2024b)作為基礎(chǔ)模型,從DeepSeek-R1直接蒸餾的效果優(yōu)于在其上應(yīng)用強化學習。這表明,更大的基礎(chǔ)模型發(fā)現(xiàn)的推理模式對于提高推理能力至關(guān)重要。我們開源了蒸餾后的Qwen 和 Llama (Dubey等人,2024)系列。值得注意的是,我們蒸餾后的14B模型的表現(xiàn)遠勝于最先進的開源QwQ-32B-Preview(Qwen,2024a),而蒸餾后的32B和70B模型在密集模型的推理基準上創(chuàng)下了新紀錄。
1.1.貢獻
訓練后:基礎(chǔ)模型上的大規(guī)模強化學習
l 我們直接將RL應(yīng)用于基礎(chǔ)模型,而無需依賴監(jiān)督微調(diào)(SFT)作為初步步驟。這種方法允許模型探索解決復雜問題的思路(CoT),從而開發(fā)出DeepSeek-R1-Zero。DeepSeek-R1- Zero 展示了自我驗證、反思和生成長CoT等功能,標志著研究界的一個重要里程碑。值得注意的是,這是第一個公開研究,驗證了LLM的推理能力可以純粹通過RL來激勵,而無需SFT。這一突破為該領(lǐng)域的未來發(fā)展鋪平了道路。
l 我們引入了用于開發(fā)DeepSeek-R1的流水線。該流水線包含兩個RL階段,旨在發(fā)現(xiàn)改進的推理模式并與人類偏好保持一致,以及兩個SFT階段,作為模型推理和非推理能力的種子。我們相信該流水線將通過創(chuàng)建更好的模型使行業(yè)受益。
提煉:小模型同樣強大
l 我們證明了較大模型的推理模式可以提煉為較小的模型,與通過強化學習在小型模型上發(fā)現(xiàn)的推理模式相比,其性能更佳。開源的DeepSeek-R1及其API將有利于研究界在未來提煉出更好的小型模型。
l 利用DeepSeek-R1生成的推理數(shù)據(jù),我們對研究社區(qū)中廣泛使用的幾個密集模型進行了微調(diào)。評估結(jié)果表明,提煉后的較小密集模型在基準測試中表現(xiàn)優(yōu)異。DeepSeek-R1- Distill-Qwen-7B在AIME2024上取得了55.5%的成績,超過了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME2024上的得分為72.6%,在MATH-500上的得分為94.3%,在LiveCodeBench上的得分為57.2%。這些結(jié)果明顯優(yōu)于之前的開源模型,與o1-mini相當。我們向社區(qū)開源了基于Qwen2.5和Llama3系列的提煉后的1.5B、7B、8B、14B、32B和70B檢查點。
1.2.評估結(jié)果摘要
l 推理任務(wù): (1)DeepSeek-R1在AIME2024上取得了79.8%的Pass@1分數(shù),略高于 OpenAl-o1-1217。在MATH-500上,它取得了令人印象深刻的97.3%的分數(shù),與 OpenAI-o1-1217相當,并明顯優(yōu)于其他模型。(2)在與編碼相關(guān)的任務(wù)中,DeepSeek- R1在代碼競賽任務(wù)中表現(xiàn)出專家級水平,因為它在Codeforces上獲得了2,029 Elo評級,比比賽中96.3%的人類參與者表現(xiàn)更好。對于與工程相關(guān)的任務(wù),DeepSeek-R1的表現(xiàn)略優(yōu)于DeepSeek-V3,這可以幫助開發(fā)人員完成現(xiàn)實世界的任務(wù)。
l 知識: 在MMLU、MMLU-Pro和GPQADiamond等基準測試中,DeepSeek-R1取得了出色的成績,在MMLU上的得分為90.8%,在MMLU-Pro上的得分為84.0%,在 GPQA Diamond 上的得分為71.5%,遠遠優(yōu)于DeepSeek-V3。雖然DeepSeek-R1在這些基準測試中的表現(xiàn)略低于OpenAI-o1-1217,但它超越了其他閉源模型,展示了其在教育任務(wù)中的競爭優(yōu)勢。在事實基準SimpleQA上,DeepSeek-R1的表現(xiàn)優(yōu)于DeepSeek- V3,展示了其處理基于事實的查詢的能力。OpenAI-o1在這個基準測試中超越了4o,也呈現(xiàn)出了類似的趨勢。
l 其他: DeepSeek-R1在創(chuàng)意寫作、一般問答、編輯、總結(jié)等一系列任務(wù)上也表現(xiàn)出色。它在AlpacaEval2.0上取得了令人印象深刻的87.6%的長度控制勝率,在ArenaHard上取得了92.3%的勝率,展示了其強大的智能處理非考試導向查詢的能力。此外, DeepSeek-R1在需要長上下文理解的任務(wù)上表現(xiàn)出色,在長上下文基準測試中大大優(yōu)于 DeepSeek-V3。
2.方法
2.1.概述
先前的研究嚴重依賴大量監(jiān)督數(shù)據(jù)來提高模型性能。在本研究中,我們證明,即使不使用監(jiān)督微調(diào)(SFT)作為冷啟動,大規(guī)模強化學習(RL)也可以顯著提高推理能力。此外,通過加入少量冷啟動數(shù)據(jù)可以進一步提高性能。在以下部分中,我們將介紹:(1)DeepSeek-R1-Zero,它將RL直接應(yīng)用于基礎(chǔ)模型,而無需任何SFT數(shù)據(jù);(2)DeepSeek-R1,它從使用數(shù)千個長思路鏈(CoT)示例微調(diào)的檢查點開始應(yīng)用RL。3)將DeepSeek-R1的推理能力提煉到小型密集模型中。
2.2. DeepSeek-R1-Zero:基礎(chǔ)模型上的強化學習
強化學習在推理任務(wù)中表現(xiàn)出顯著的有效性,這一點可以從我們之前的研究(Shao等人,2024; Wang等人,2023)中看出。然而,這些研究嚴重依賴于監(jiān)督數(shù)據(jù),而收集這些數(shù)據(jù)需要耗費大量時間。在本節(jié)中,我們將探索LLM在沒有任何監(jiān)督數(shù)據(jù)的情況下開發(fā)推理能力的潛力,重點關(guān)注它們通過純強化學習過程的自我進化。我們首先簡要概述我們的RL算法,然后介紹一些令人興奮的結(jié)果,希望這能為社區(qū)提供有價值的見解。
2.2.1.強化學習算法
組相對策略優(yōu)化為了節(jié)省強化學習的訓練成本,我們采用組相對策略優(yōu)化(GRPO)(Shao et al.,2024),它放棄了通常與策略模型大小相同的批評模型,而是從組分數(shù)估計基線。具體來說,對于每個問題q,GRPO 從舊策略πoold中抽取一組輸出{0),0z??,0c},然后通過最大化以下目標來優(yōu)化策略模型πo:

其中ε和β是超參數(shù),A是優(yōu)勢,使用對應(yīng)于每個組內(nèi)輸出的一組獎勵{rs, rz,...,ra} 計算得出:

用戶和助手之間的對話。用戶提出問題,助手解答。助手首先在腦海中思考推理過程,然后為用戶提供答案。推理過程和答案包含在<think></think>和
<answer></answer>標簽,即<think>推理過程如下</think><answer>在這里回答</answer>。
用戶:提示。助手:
表1DeepSeek-R1-Zero的模板。訓練期間,提示將被替換為具體的推理問題。
2.2.2.獎勵模型
獎勵是訓練信號的來源,決定了強化學習的優(yōu)化方向。為了訓練DeepSeek-R1-Zero,我們采用了基于規(guī)則的獎勵系統(tǒng),該系統(tǒng)主要包含兩種類型的獎勵:
l 準確度獎勵: 準確度獎勵模型評估響應(yīng)是否正確。例如,在結(jié)果確定的數(shù)學問題中,模型需要以指定的格式(例如,在方框內(nèi))提供最終答案,從而實現(xiàn)可靠的基于規(guī)則的正確性驗證。同樣,對于LeetCode問題,可以使用編譯器根據(jù)預(yù)定義的測試用例生成反饋。
l 格式獎勵: 除了準確性獎勵模型之外,我們還采用了格式獎勵模型,強制模型將其思維過程置于'<think>' 和'</think>'標簽。
在開發(fā)DeepSeek-R1-Zero時,我們沒有應(yīng)用結(jié)果或過程神經(jīng)獎勵模型,因為我們發(fā)現(xiàn)神經(jīng)獎勵模型在大規(guī)模強化學習過程中可能會受到獎勵黑客攻擊,并且重新訓練獎勵模型需要額外的訓練資源,并且使整個訓練流程變得復雜。
2.2.3.培訓模板
為了訓練DeepSeek-R1-Zero,我們首先設(shè)計一個簡單的模板,指導基礎(chǔ)模型遵循我們指定的指令。如表1所示,此模板要求DeepSeek-R1-Zero首先生成一個推理過程,然后給出最終答案。我們有意將約束限制在這種結(jié)構(gòu)格式上,避免任何特定于內(nèi)容的偏見(例如強制進行反思性推理或推廣特定的問題解決策略),以確保我們能夠準確觀察模型在RL過程中的自然進展。
2.2.4. DeepSeek-R1-Zero的性能、自我進化過程和頓悟時刻
DeepSeek-R1-Zero的性能圖2描繪了DeepSeek-R1-Zero在整個RL訓練過程中在AIME2024基準上的性能軌跡。如圖所示,隨著RL訓練的進展,DeepSeek-R1-Zero的性能穩(wěn)步提升。值得注意的是,AIME2024上的平均pass@1分數(shù)顯著提高,從最初的15.6%躍升至令人印象深刻的71.0%,達到了與OpenAl-o1-0912相當?shù)男阅芩?。這一顯著的改進凸顯了我們的RL算法在隨時間優(yōu)化模型性能方面的有效性。
表2提供了DeepSeek-R1-Zero與OpenAI的o1-0912模型在各種推理相關(guān)基準上的比較分析。研究結(jié)果表明,強化學習可以增強


DeepSeek-R1-Zero無需任何監(jiān)督微調(diào)數(shù)據(jù)即可實現(xiàn)強大的推理能力。這是一項值得注意的成就,因為它強調(diào)了該模型僅通過RL就能有效學習和概括的能力。此外,通過應(yīng)用多數(shù)投票, DeepSeek-R1-Zero的性能可以進一步增強。例如,當在AIME基準上使用多數(shù)投票時, DeepSeek-R1-Zero的性能從71.0%提升到86.7%,從而超過了OpenAI-o1-0912的性能。 DeepSeek-R1-Zero能夠在有或沒有多數(shù)投票的情況下實現(xiàn)如此具有競爭力的性能,凸顯了其強大的基礎(chǔ)能力以及在推理任務(wù)中進一步進步的潛力。
DeepSeek-R1-Zero的自我進化過程DeepSeek-R1-Zero的自我進化過程令人著迷地展示了RL如何驅(qū)動模型自主提高其推理能力。通過直接從基礎(chǔ)模型啟動RL,我們可以密切監(jiān)控模型的進展,而不受監(jiān)督微調(diào)階段的影響。這種方法可以清楚地看到模型如何隨時間演變,特別是在其處理復雜推理任務(wù)的能力方面。
如圖3所示,DeepSeek-R1-Zero的思考時間呈現(xiàn)出持續(xù)的提升。

圖3 DeepSeek-R1-Zero在強化學習過程中對訓練集的平均響應(yīng)長度。DeepSeek-R1-Zero自然學會了用更多的思考時間來解決推理任務(wù)。
在整個訓練過程中,DeepSeek-R1-Zero的改進并不是外部調(diào)整的結(jié)果,而是模型內(nèi)部的內(nèi)在發(fā)展。DeepSeek-R1-Zero通過利用擴展的測試時間計算,自然而然地獲得了解決日益復雜的推理任務(wù)的能力。這種計算范圍從生成數(shù)百到數(shù)千個推理標記,使模型能夠更深入地探索和改進其思維過程。
這種自我進化最引人注目的方面之一是,隨著測試時間計算的增加,復雜的行為也隨之出現(xiàn)。諸如反思(模型重新審視并重新評估其先前的步驟)和探索解決問題的替代方法等行為都是自發(fā)產(chǎn)生的。這些行為不是明確編程的,而是模型與強化學習環(huán)境交互的結(jié)果。這種自發(fā)發(fā)展顯著增強了DeepSeek-R1-Zero的推理能力,使其能夠以更高的效率和準確性應(yīng)對更具挑戰(zhàn)性的任務(wù)。
DeepSeek-R1-Zero的頓悟時刻在DeepSeek-R1-Zero訓練期間觀察到的一個特別有趣的現(xiàn)象是“頓悟時刻"的出現(xiàn)。如表3所示,此時刻發(fā)生在模型的中間版本中。在此階段,DeepSeek- R1-Zero通過重新評估其初始方法學會為問題分配更多思考時間。這種行為不僅證明了模型不斷增強的推理能力,而且是一個引人入勝的例子,展示了強化學習如何產(chǎn)生意想不到的復雜結(jié)果。
這一刻不僅是模型的“頓悟時刻",也是觀察其行為的研究人員的“頓悟時刻"。它強調(diào)了強化學習的力量和魅力:我們無需明確地教模型如何解決問題,只需為其提供適當?shù)募?,它就會自主地開發(fā)高級的解決問題策略。這一“頓悟時刻"有力地提醒了我們,強化學習有潛力在人工智能系統(tǒng)中開啟新的智能水平,為未來更自主、更具適應(yīng)性的模型鋪平道路。

DeepSeek-R1-Zero的缺點盡管DeepSeek-R1-Zero表現(xiàn)出強大的推理能力,并自主開發(fā)出意想不到的強大推理行為,但它也面臨一些問題。例如,DeepSeek-R1-Zero面臨著可讀性差和語言混合等挑戰(zhàn)。為了使推理過程更具可讀性并與開放社區(qū)分享,我們探索了DeepSeek-R1,這是一種利用強化學習和人性化冷啟動數(shù)據(jù)的方法。
2.3.DeepSeek-R1:冷啟動強化學習
受到DeepSeek-R1-Zero良好結(jié)果的啟發(fā),我們自然而然地產(chǎn)生了兩個問題:1)通過引入少量高質(zhì)量數(shù)據(jù)作為冷啟動,是否可以進一步提高推理性能或加速收斂?2)如何訓練一個用戶友好的模型,該模型不僅可以產(chǎn)生清晰連貫的思維鏈(CoT),而且還具有強大的通用能力?為了解決這些問題,我們設(shè)計了一個流程來訓練DeepSeek-R1。該流程由四個階段組成,概述如下。
2.3.1.冷啟動
與DeepSeek-R1-Zero不同,為了防止基礎(chǔ)模型在RL訓練早期出現(xiàn)不穩(wěn)定的冷啟動階段,對于DeepSeek-R1,我們構(gòu)建并收集少量的長CoT數(shù)據(jù),以作為初始RL參與者對模型進行微調(diào)。為了收集此類數(shù)據(jù),我們探索了幾種方法:使用長CoT的少樣本提示作為示例,直接提示模型通過反思和驗證生成詳細答案,以可讀格式收集DeepSeek-R1-Zero輸出,并通過人工注釋者的后期處理來完善結(jié)果。
在本研究中,我們收集了數(shù)千個冷啟動數(shù)據(jù),以微調(diào)DeepSeek-V3-Base作為RL的起點。與DeepSeek-R1-Zero相比,冷啟動數(shù)據(jù)的優(yōu)勢
包括:
l 可讀性: DeepSeek-R1-Zero的一個關(guān)鍵限制是其內(nèi)容通常不適合閱讀。響應(yīng)可能混合多種語言或缺乏markdown格式來為用戶突出顯示答案。相比之下,在為DeepSeek-R1創(chuàng)建冷啟動數(shù)據(jù)時,我們設(shè)計了一種可讀模式,在每個響應(yīng)的末尾包含摘要,并過濾掉不易于閱讀的響應(yīng)。在這里,我們將輸出格式定義為|特殊令牌|<reasoning_process>|特殊令牌|<summary>,其中推理過程是針對查詢的 CoT,而summary用于總結(jié)推理結(jié)果。
l 潛力: 通過精心設(shè)計冷啟動數(shù)據(jù)模式,結(jié)合人類先驗知識,我們觀察到其性能優(yōu)于 DeepSeek-R1-Zero。我們相信迭代訓練是推理模型的更好方法。
2.3.2.推理導向的強化學習
在冷啟動數(shù)據(jù)上對DeepSeek-V3-Base進行微調(diào)后,我們采用與DeepSeek-R1-Zero相同的大規(guī)模強化學習訓練流程,此階段主要提升模型的推理能力,特別是在編碼、數(shù)學、科學和邏輯推理等推理密集型任務(wù)中,這些任務(wù)涉及定義明確且解決方案明確的問題。在訓練過程中,我們觀察到CoT經(jīng)常出現(xiàn)語言混合的情況,尤其是當RL提示涉及多種語言時。為了緩解語言混合的問題,我們在RL訓練中引入了語言一致性獎勵,其計算方式為CoT中目標語言單詞的比例。雖然消融實驗表明這種對齊會導致模型性能略有下降,但這種獎勵符合人類的偏好,使其更具可讀性。最后,我們將推理任務(wù)的準確率和語言一致性的獎勵直接相加,形成最終獎勵。然后,我們對微調(diào)后的模型進行RL訓練,直到它在推理任務(wù)上實現(xiàn)收斂。
2.3.3.拒絕抽樣和監(jiān)督微調(diào)
當以推理為導向的強化學習收斂時,我們會利用生成的檢查點來收集SFT(監(jiān)督微調(diào))數(shù)據(jù),以供下一輪使用。與主要側(cè)重于推理的初始冷啟動數(shù)據(jù)不同,此階段會整合來自其他領(lǐng)域的數(shù)據(jù),以增強模型在寫作、角色扮演和其他通用任務(wù)中的能力。具體來說,我們會生成數(shù)據(jù)并微調(diào)模型,如下所述。
推理數(shù)據(jù)我們通過從上述RL訓練的檢查點進行拒絕抽樣來整理推理提示并生成推理軌跡。在上一階段,我們僅包含可以使用基于規(guī)則的獎勵進行評估的數(shù)據(jù)。但是,在此階段,我們通過合并其他數(shù)據(jù)來擴展數(shù)據(jù)集,其中一些數(shù)據(jù)使用生成獎勵模型,將基本事實和模型預(yù)測輸入 DeepSeek-V3進行判斷。此外,由于模型輸出有時混亂且難以閱讀,我們過濾掉了混合語言、長段落和代碼塊的思路鏈。對于每個提示,我們會抽樣多個響應(yīng)并僅保留正確的響應(yīng)??偟膩碚f,我們收集了大約600k個與推理相關(guān)的訓練樣本。
非推理數(shù)據(jù)對于非推理數(shù)據(jù),例如寫作、事實問答、自我認知和翻譯,我們采用DeepSeek-V3流程并重用DeepSeek-V3的部分SFT數(shù)據(jù)集。對于某些非推理任務(wù),我們會在提示回答問題之前調(diào)用DeepSeek-V3生成潛在的思路鏈。但是,對于更簡單的查詢,例如“你好”,我們不提供CoT作為響應(yīng)。最終,我們總共收集了大約200k個與推理無關(guān)的訓練樣本。
我們使用上面整理的約800k個樣本的數(shù)據(jù)集對DeepSeek-V3-Base進行了兩個時期的微調(diào)。
2.3.4.適用于所有場景的強化學習
為了使模型與人類偏好進一步保持一致,我們實施了二級強化學習階段,旨在提高模型的有用性和無害性,同時改進其推理能力。具體來說,我們使用獎勵信號和各種提示分布的組合來訓練模型。對于推理數(shù)據(jù),我們遵循DeepSeek-R1-Zero中概述的方法,該方法利用基于規(guī)則的獎勵來指導數(shù)學、代碼和邏輯推理領(lǐng)域的學習過程。對于一般數(shù)據(jù),我們采用獎勵模型來捕捉復雜而微妙的場景中的人類偏好。我們以DeepSeek-V3管道為基礎(chǔ),采用類似的偏好對和訓練提示分布。對于有用性,我們只關(guān)注最終摘要,確保評估強調(diào)響應(yīng)對用戶的實用性和相關(guān)性,同時最大限度地減少對底層推理過程的干擾。對于無害性,我們評估模型的整個響應(yīng),包括推理過程和摘要,以識別和減輕生成過程中可能出現(xiàn)的任何潛在風險、偏見或有害內(nèi)容。最終,獎勵信號和多樣化數(shù)據(jù)分布的整合使我們能夠訓練一個擅長推理同時優(yōu)先考慮有用性和無害性的模型。
2.4.提煉:賦予小模型推理能力
為了使更高效的小型模型具備像DeepSeek-R1這樣的推理能力,我們使用DeepSeek-R1整理的800k個樣本直接對Qwen (Qwen, 2024b)和Llama (AI@Meta,2024)等開源模型進行了微調(diào),詳情見g2.3.3。我們的研究結(jié)果表明,這種直接的提煉方法顯著增強了小型模型的推理能力。我們在這里使用的基礎(chǔ)模型是Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、 Qwen2.5-32B、Llama-3.1-8B和Llama-3.3-70B-Instruct。我們選擇Llama-3.3是因為它的推理能力略優(yōu)于Llama-3.1。
對于蒸餾模型,我們僅應(yīng)用SFT,而不包含RL階段,盡管加入RL可以顯著提高模型性能。我們的主要目標是證明蒸餾技術(shù)的有效性,而將RL階段的探索留給更廣泛的研究社區(qū)。
3.實驗
基準測試我們在MMLU(Hendrycks et al., 2020)、MMLU-Redux(Gema et al.,2024)、 MMLU-Pro (Wang et al., 2024)、C-Eval (Huang et al.,2023)、CMMLU(Liet alL.,2023)、 IFEval (Zhou et al.,2023)、FRAMES(Krishna et al., 2024)、GPQADiamond (Rein et al.,2023)、SimpleQA(OpenAI,2024c)、C-SimpleQA(He et al.,2024)、SWE-Bench Verified(OpenAI,2024d)、Aider’、LiveCodeBench(Jain等人,2024)(2024-08-2025-01)、Codeforces2、中國全國高中數(shù)學奧林匹克(CNMO2024)3和美國數(shù)學邀請賽2024(AIME 2024)(MAA,2024)。除了標準基準之外,我們還使用LLM作為評判者在開放式生成任務(wù)上評估我們的模型。具體來說,我們遵循AlpacaEval 2.0(Dubois等人,2024)和Arena-Hard (Li等人,2024)的原始配置,它們利用GPT-4-Turbo-1106作為成對比較的評判者。在這里,我們只將最終摘要提供給評估,以避免長度偏差。對于提煉模型,我們報告了AIME 2024、MATH-500、 GPQA Diamond、Codeforces和 LiveCodeBench的代表性結(jié)果。
評估提示按照DeepSeek-V3中的設(shè)置,使用simpleevals框架中的提示評估MMLU、DROP、 GPQADiamond和SimpleQA等標準基準測試。對于MMLU-Redux,我們在零樣本設(shè)置中采用Zero-Eval提示格式(Lin,2024)。對于MMLU-Pro、C-Eval和CLUE-WSC,由于原始提示是少樣本的,我們將提示稍微修改為零樣本設(shè)置。少樣本中的CoT可能會損害 DeepSeek-R1的性能。其他數(shù)據(jù)集遵循其原始評估協(xié)議,使用其創(chuàng)建者提供的默認提示。對于代碼和數(shù)學基準測試,HumanEval-Mul數(shù)據(jù)集涵蓋了八種主流編程語言(Python、Java、 C++、C#、JavaScript、TypeScript、PHP和Bash)。使用CoT格式評估LiveCodeBench上的模型性能,數(shù)據(jù)收集時間為2024年8月至2025年1月。使用來自10個Div.2競賽的問題以及專家制作的測試用例評估Codeforces數(shù)據(jù)集,然后計算競爭對手的預(yù)期評分和百分比。通過無代理框架獲得SWE-Bench驗證結(jié)果(Xia等人,2024年)。使用“diff”格式測量與 AIDER相關(guān)的基準。每個基準的DeepSeek-R1輸出上限為32,768個令牌。
基線我們針對幾個強大的基線進行了全面的評估,包括DeepSeek-V3、Claude-Sonnet-3.5-1022、GPT-4o-0513、OpenAl-o1-mini和OpenAI-o1-1217。由于在中國大陸訪問OpenAI-o1-1217 API具有挑戰(zhàn)性,因此我們根據(jù)官方報告報告其性能。對于提煉模型,我們還比較了開源模型QwQ-32B-Preview(Qwen,2024a)。
評估設(shè)置我們將模型的最大生成長度設(shè)置為32,768個token。我們發(fā)現(xiàn)使用貪婪解碼來評估長輸出推理模型會導致更高的重復率和不同檢查點之間的顯著差異。因此,我們默認使用 pass@k評估(Chen等人,2021年)并使用非零溫度報告pass@1。具體來說,我們使用0.6的采樣溫度和0.95的top-p值來為每個問題生成k個響應(yīng)(通常在4到64之間,具體取決于測試集大小)。然后計算Pass@1為

其中pi表示第i個響應(yīng)的正確性。此方法提供了更可靠的性能估計。對于AIME2024,我們還使用64個樣本報告了共識(多數(shù)投票)結(jié)果(Wang等人,2022年),表示為cons@64。
1. https://aider.chat
2. https://codeforces.com
3. https://www.cms.org.cn/Home/comp/comp/cid/12.html
3.1. DeepSeek-R1 評估

對于MMLU、MMLU-Pro和GPQA Diamond等面向教育的知識基準,DeepSeek-R1表現(xiàn)出比DeepSeek-V3更好的性能。這種改進主要歸因于STEM相關(guān)問題的準確性提高,通過大規(guī)模強化學習實現(xiàn)了顯著的提升。此外,DeepSeek-R1在FRAMES(一項長期上下文相關(guān)的 QA任務(wù))上表現(xiàn)出色,展示了其強大的文檔分析能力。這凸顯了推理模型在AI驅(qū)動的搜索和數(shù)據(jù)分析任務(wù)中的潛力。在事實基準SimpleQA上,DeepSeek-R1的表現(xiàn)優(yōu)于DeepSeek-V3,展示了其處理基于事實的查詢的能力。OpenAI-o1在此基準上超越GPT-4o也呈現(xiàn)出類似的趨勢。然而,DeepSeek-R1在中國SimpleQA基準上的表現(xiàn)不如DeepSeek-V3,主要是因為它在安全強化學習后傾向于拒絕回答某些查詢。在沒有安全RL的情況下,DeepSeek-R1可以達到70%以上的準確率。
DeepSeek-R1在IF-Eval上也取得了令人印象深刻的結(jié)果,IF-Eval是一個旨在評估模型遵循格式指令的能力的基準。這些改進可以歸因于在監(jiān)督微調(diào)(SFT)和RL訓練的最后階段納入了遵循指令的數(shù)據(jù)。此外,在AlpacaEval2.0和ArenaHard上也觀察到了出色的表現(xiàn),表明 DeepSeek-R1在寫作任務(wù)和開放域問答方面具有優(yōu)勢。它顯著優(yōu)于DeepSeek-V3的表現(xiàn)凸顯了大規(guī)模RL的泛化優(yōu)勢,這不僅提高了推理能力,還提高了跨不同領(lǐng)域的性能。此外, DeepSeek-R1生成的摘要長度簡潔,在ArenaHard上平均為689個標記,在AlpacaEval 2.0上平均為2,218個字符。這表明DeepSeek-R1避免在基于GPT的評估中引入長度偏差,進一步鞏固了其在多項任務(wù)中的穩(wěn)健性。
在數(shù)學任務(wù)上,DeepSeek-R1的表現(xiàn)與OpenAI-o1-1217相當,遠超其他模型。在編碼算法任務(wù)上也觀察到了類似的趨勢,例如LiveCodeBench和Codeforces,在這些基準測試中,以推理為重點的模型占據(jù)主導地位。在面向工程的編碼任務(wù)上,OpenAI-o1-1217在Aider上的表現(xiàn)優(yōu)于DeepSeek-R1,但在SWEVerified上的表現(xiàn)相當。我們相信DeepSeek-R1的工程性能將在下一版本中得到改善,因為相關(guān)的RL訓練數(shù)據(jù)量目前仍然非常有限。
3.2. 蒸餾模型評估

表5 DeepSeek-R1 提煉模型與其他同類模型在推理相關(guān)基準上的比較
如表5所示,只需對DeepSeek-R1的輸出進行簡單提煉,高效的DeepSeek-R1-7B(即 DeepSeek-R1-Distill-Qwen-7B,下文簡稱類似)就能全面超越GPT-4o-0513等非推理模型。 DeepSeek-R1-14B在所有評估指標上都超越了QwQ-32BPreview,而DeepSeek-R1-32B和 DeepSeek-R1-70B在大多數(shù)基準測試中都顯著超過了o1-mini。這些結(jié)果證明了提煉的強大潛力。此外,我們發(fā)現(xiàn)將RL應(yīng)用于這些提煉模型可以獲得顯著的進一步收益。我們認為這值得進一步探索,因此這里僅展示簡單的SFT提煉模型的結(jié)果。
4.討論
4.1.蒸餾與強化學習
在3.2節(jié)中,我們可以看到通過蒸餾DeepSeek-R1,小模型可以取得令人印象深刻的效果。然而,還有一個問題:如果不進行蒸餾,模型是否可以通過論文中討論的大規(guī)模RL訓練獲得相當?shù)男阅?
為了回答這個問題,我們使用數(shù)學、代碼和STEM數(shù)據(jù)對Qwen-32B-Base進行了大規(guī)模 RL訓練,訓練了超過10K步,最終得到了DeepSeek-R1-Zero-Qwen-32B。實驗結(jié)果如表6所示,表明32B基礎(chǔ)模型經(jīng)過大規(guī)模
表6|推理相關(guān)基準上的提煉模型和RL模型的比較
RL訓練的性能與QwQ-32B-Preview相當。然而,從DeepSeek-R1提煉出來的DeepSeek-R1- Distill-Qwen-32B在所有基準測試中的表現(xiàn)都明顯優(yōu)于DeepSeek-R1-Zero-Qwen-32B。
因此,我們可以得出兩個結(jié)論:第一,將更強大的模型提煉成更小的模型可以產(chǎn)生很好的效果,而本文提到的依賴于大規(guī)模強化學習的小模型需要巨大的計算能力,甚至可能無法達到提煉的性能。第二,雖然提煉策略既經(jīng)濟又有效,但要超越智能的界限,可能仍需要更強大的基礎(chǔ)模型和更大規(guī)模的強化學習。
4.2.失敗的嘗試
在開發(fā)DeepSeek-R1的早期階段,我們也曾遇到過失敗和挫折。我們在這里分享失敗的經(jīng)驗是為了提供見解,但這并不意味著這些方法無法開發(fā)有效的推理模型。
過程獎勵模型(PRM)PRM是一種合理的方法,可以引導模型朝著更好的方法解決推理任務(wù)(Lightman等,2023:Uesato等,2022:Wang等,2023)。然而,在實踐中,PRM有三個主要限制,可能會阻礙其最終成功。首先,在一般推理中明確定義一個細粒度的步驟具有挑戰(zhàn)性。其次,確定當前中間步驟是否正確是一項具有挑戰(zhàn)性的任務(wù)。使用模型的自動注釋可能無法產(chǎn)生令人滿意的結(jié)果,而手動注釋不利于擴大規(guī)模。第三,一旦引入基于模型的PRM,不可避免地會導致獎勵黑客攻擊(Gao等,2022),重新訓練獎勵模型需要額外的訓練資源,并使整個訓練流程復雜化。綜上所述,雖然PRM表現(xiàn)出了對模型生成的前N個響應(yīng)進行重新排序或協(xié)助引導搜索的良好能力(Snell等人,2024),但與我們實驗中在大規(guī)模強化學習過程中引入的額外計算開銷相比,它的優(yōu)勢是有限的。
蒙特卡洛樹搜索(MCTS)受AlphaGo (Silver et al., 2017b)和AlphaZero (Silver etal.,2017a)的啟發(fā),我們探索使用蒙特卡洛樹搜索(MCTS)來增強測試時計算可擴展性。此方法涉及將答案分解為更小的部分,以允許模型系統(tǒng)地探索解決方案空間。為了實現(xiàn)這一點,我們提示模型生成與搜索所需的特定推理步驟相對應(yīng)的多個標簽。對于訓練,我們首先使用收集到的提示通過由預(yù)先訓練的價值模型指導的MCTS來尋找答案。隨后,我們使用生成的問答對來訓練參與者模型和價值模型,并迭代地完善該過程。
然而,這種方法在擴大訓練規(guī)模時遇到了一些挑戰(zhàn)。首先,與國際象棋不同,國際象棋的搜索空間相對明確,而token生成則呈現(xiàn)出
搜索空間呈指數(shù)級增長。為了解決這個問題,我們?yōu)槊總€節(jié)點設(shè)置了最大擴展限制,但這可能會導致模型陷入局部最優(yōu)。其次,價值模型直接影響生成的質(zhì)量,因為它指導搜索過程的每個步驟。訓練細粒度的價值模型本質(zhì)上很困難,這使得模型難以迭代改進。雖然AlphaGo的核心成功依賴于訓練價值模型來逐步提高其性能,但由于token生成的復雜性,這一原則在我們的設(shè)置中很難復制。
總之,雖然MCTS與預(yù)先訓練的價值模型結(jié)合使用時可以提高推理過程中的性能,但通過自我搜索迭代地提升模型性能仍然是一個重大挑戰(zhàn)。
5.結(jié)論、局限性和未來工作
在這項工作中,我們分享了通過強化學習增強模型推理能力的歷程。DeepSeek-R1-Zero代表了一種不依賴冷啟動數(shù)據(jù)的純RL方法,在各種任務(wù)中都取得了出色的性能。DeepSeek-R1更強大,它利用冷啟動數(shù)據(jù)和迭代RL微調(diào)。最終,DeepSeek-R1在一系列任務(wù)上實現(xiàn)了與 OpenAI-o1-1217相當?shù)男阅堋?/p>
我們進一步探索將推理能力提煉到小型密集模型。我們使用DeepSeek-R1作為教師模型來生成800K個訓練樣本,并對幾個小型密集模型進行微調(diào)。結(jié)果令人鼓舞:DeepSeek-R1- Distill-Qwen-1.5B在數(shù)學基準測試中的表現(xiàn)優(yōu)于GPT-4o和Claude-3.5-Sonnet,在AIME上為28.9%,在MATH上為83.9%。其他密集模型也取得了令人印象深刻的結(jié)果,顯著優(yōu)于基于相同底層檢查點的其他指令調(diào)整模型。
未來我們計劃針對DeepSeek-R1在以下方向投入研究。
l 通用能力: 目前DeepSeek-R1在函數(shù)調(diào)用、多回合、復雜角色扮演、JSON輸出等任務(wù)上的能力還不及DeepSeek-V3。未來我們計劃探索如何利用CoT來增強這些領(lǐng)域的任務(wù)?!ふZ言混合:DeepSeek-R1目前針對中文和英文進行了優(yōu)化,這可能會導致在處理其他語言的查詢時出現(xiàn)語言混合問題。例如,即使查詢使用的語言不是英文或中文,DeepSeek- R1也可能使用英文進行推理和響應(yīng)。我們計劃在未來的更新中解決這一限制。
l 提示工程: 在評估DeepSeek-R1時,我們觀察到它對提示很敏感。少量提示會持續(xù)降低其性能。因此,我們建議用戶直接描述問題并使用零樣本設(shè)置指定輸出格式以獲得最佳結(jié)果。
l 軟件工程任務(wù): 由于評估時間較長,影響了RL流程的效率,大規(guī)模RL尚未廣泛應(yīng)用于軟件工程任務(wù)。因此,DeepSeek-R1在軟件工程基準測試中并未表現(xiàn)出比DeepSeek-V3更大的改進。未來版本將通過對軟件工程數(shù)據(jù)實施拒絕采樣或在RL流程中加入異步評估來解決這個問題,以提高效率。
DeepSeek-R1論文(中英)文下載地址:https://pan.quark.cn/s/60606d013547