?? 本期介紹米哈游DPO面試題三連問:DPO訓練后為什么偏好更長輸出?有什么問題?如何緩解?
?? 今天來解析面試題:如何根據(jù)RL任務(wù)調(diào)整KL散度?是否應(yīng)該去掉KL?GRPO之后有哪些KL優(yōu)化策略?
?? 最近發(fā)布的大模型(多模態(tài)大模型)普遍都使用了 MTP (Multi-Token Prediction),包括 DeepSeek v4 / Qwen3-Next / Qwe...
?? 今天解析DeepSeek開源又緊急撤回的論文:《Thinking with Visual Primitives》,在 DeepSeek V4 Flash 基礎(chǔ)上構(gòu)建多模態(tài)...
?? 今天來解析 GVPO(Group Verification-based Policy Optimization),使用 GRPO 訓練 Coding Agent 存在獎勵...
?? 今天來解讀智譜 GLM 團隊分享的《Scaling Pain of Coding Agent Serving: Lessons from Debugging GLM-5 ...
?? 今天來解析 DeepSeek V4訓練流程,主要關(guān)注預訓練階段與 V3/V3.2 的區(qū)別、1M長上下文拓展訓練、后訓練 On-Policy Distillation 實現(xiàn)。
?? 昨天解析了 DeepSeek V4 的架構(gòu),解釋了 CSA+ HCA 為什么能在低 KV Cache 開銷下實現(xiàn) 1M上下文?? ?? 但是 DeepSeek V4 技術(shù)報告...
?? 為什么 DeepSeek V4 能夠支持 1 M 上下文,并且保持低 FLOPs/KV Cache開銷,答案就藏在模型架構(gòu)上。 ?? 今天帶你從DeepSeek技術(shù)報告/源...
?? 周五 DeepSeek V4 終于開源,在做到了 1M 上下文 FLOPs / KVCache 的極限壓縮之后,不少小伙伴問我在 Claude Code 里 DeepSe...
?? 今天解析字節(jié)tiktok暑期實習面試三連問: ?? 重要性采樣(Importance Sampling, IS)如何理解? ?? 如果每批數(shù)據(jù)只梯度更新一次,PPO 還需不需...
?? 今天解析大模型 RL 中的訓推不一致的原因 & 解決方案。 ?? 各廠在卷的 Reasoning & Agentic 大規(guī)模 RL 后訓練都是訓推分離式架構(gòu),不可避免必須解...
?? 今天來總結(jié)最近比較常見的 On-Policy (Self) Distillation 系列算法發(fā)展脈絡(luò)。
?? 本期介紹大模型推理(Inference)的性能指標有哪些? ?? 對于Agent相關(guān)崗位,了解Inference Metrics對于選取不同供應(yīng)商API/本地部署策略都有重...
?? 本期圖解 Google 開源Gemma 4 架構(gòu)設(shè)計細節(jié),其中端側(cè)模型的架構(gòu)上有很多值得一看的設(shè)計。
?? 今天來解析Cursor Composer 2 技術(shù)報告,期一度因為使用Kimi K2.5預訓練基座飽受爭議,但是其技術(shù)報告關(guān)注Coding Agent的RL訓練,做這個方...