deepseek-r1是深度搜索公司的開源思維鏈模型,可以在https://www.deepseek.com,進入 https://api-docs.deepseek.com/zh-cn/news/news250120,在這篇文章中介紹了論文連接https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf。
1. DeepSeek-v3、DeepSeek-R1-Zero、DeepSeek-R1
要搞清deepseek大模型,有3個概念要先搞清楚:
- DeepSeek-V3,這是一款強大的專家混合(MoE)語言模型,總參數(shù)量達 6710 億,每個標記激活的參數(shù)量為 370 億。
- DeepSeek-R1-Zero 是通過大規(guī)模強化學習(RL)訓練而成,未經(jīng)過監(jiān)督微調(diào)(SFT)的初步模型,展現(xiàn)出了卓越的推理能力。通過強化學習,DeepSeek-R1-Zero 自然地形成了眾多強大且有趣的推理行為。
- DeepSeek-R1,由于DeepSeek-R1-Zero存在可讀性差和語言混
雜等問題。為了解決這些問題并進一步提升推理性能,DeepSeek推出了DeepSeek-R1。
DeepSeek-V3是基礎大模型, DeepSeek-R1-Zero 和 DeepSeek-R1是推理模型(COT)。
2. DeepSeek-R1的性能如何
DeepSeek-R1的對比對象是OpenAI-o1-1217,OpenAI-o1-mini,這兩個模型是OpenAI最先進的推理大模型,但是是閉源的。DeepSeek公布了在6個數(shù)據(jù)集上對比結果,從結果看,DeepSeek-R1和OpenAI-o1-1217相當,在DeepSeek-R1開源的基礎上,DeepSeek-R1就是OpenAI-o1推理模型的平替。

3. DeepSeek訓練
3.1 DeepSeek-R1-Zero
DeepSeek-R1-Zero通過強化學習算法組相對策略優(yōu)化(GRPO)(Shao 等人,2024)訓練推理能力,該方法舍棄了通常與策略模型大小相同的評價模型,而是從組得分中估計基準值。DeepSeek-R1-Zero通過獎勵模型進行強化訓練(準確性獎勵和格式獎勵),在無需任何監(jiān)督微調(diào)數(shù)據(jù)的情況下獲得強大的推理能力。
盡管 DeepSeek-R1-Zero 展現(xiàn)出強大的推理能力,并能自主開發(fā)出意想不到且強大的推理行為,但它也面臨一些問題。例如,DeepSeek-R1-Zero 在諸如可讀性差和語言混雜等方面存在挑戰(zhàn)。
3.2 DeepSeek-R1
DeepSeek-R1是通過收集冷啟動數(shù)據(jù),在DeepSeek-V3基礎上通過微調(diào)得到。所謂冷啟動,就是模型初次運行時,沒有足夠的歷史數(shù)據(jù)。DeepSeek為了收集此類數(shù)據(jù),探索了多種方法:使用少量示例的長鏈推理進行提示,直接提示模型生成包含反思和驗證的詳細答案,收集 DeepSeek-R1-Zero 的輸出并以可讀格式呈現(xiàn),以及通過人工標注員進行后期處理來優(yōu)化結果。
為解決語言混雜的問題,DeepSeek在強化學習訓練中引入了語言一致性獎勵,其計算方式為 CoT 中目標語言詞匯的比例。盡管消融實驗表明這種對齊會導致模型性能略有下降,但這種獎勵符合人類偏好,使輸出更具可讀性。最后,我們將推理任務的準確性與語言一致性獎勵直接相加,形成最終獎勵。
3.3 蒸餾(distill)
為了給像 DeepSeek-R1 這樣具備推理能力的更高效的小型模型配備更強大的功能,DeepSeek直接使用 DeepSeek-R1 精選的 80 萬份樣本對 Qwen(Qwen,2024b)和 Llama(AI@Meta,2024)等開源模型進行了微調(diào)。研究結果表明,這種直接的知識蒸餾方法顯著提升了小型模型的推理能力。這里使用的基模型包括 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。我們選擇 Llama-3.3 是因為其推理能力略優(yōu)于 Llama-3.1。
4. DeepSeek應用
DeepSeek-R1開源模型以優(yōu)異的能力比肩OpenAI-o1,必將引來更加激勵的技術競爭,對于我等普通大眾來講,就是大幅度的降低了大模型的使用成本。
在短視頻里有很多教程都在教授部署本地大模型,由于硬件限制,最好的辦法還是直接使用商業(yè)版的DeepSeek-R1,成本已經(jīng)足夠低了。
英偉達、微軟、AMD等國際大公司已經(jīng)宣布支持DeepSeek-R1模型,并且在程序員日常工具很多已經(jīng)支持DeepSeek-R1了,例如說Cursor

對于行業(yè)大眾來講,快速接受AI,乘坐趨勢,賦能AI+是我們需要做的事情。