?? 本期介紹米哈游DPO面試題三連問:DPO訓(xùn)練后為什么偏好更長輸出?有什么問題?如何緩解?
?? 今天來解析面試題:如何根據(jù)RL任務(wù)調(diào)整KL散度?是否應(yīng)該去掉KL?GRPO之后有哪些KL優(yōu)化策略?
?? 今天來解析26暑期實(shí)習(xí)面試中大模型強(qiáng)化學(xué)習(xí) RL、Agentic RL、RL Agent 的高頻考點(diǎn)考題。
?? 最近發(fā)布的大模型(多模態(tài)大模型)普遍都使用了 MTP (Multi-Token Prediction),包括 DeepSeek v4 / Q...
?? 今天解析DeepSeek開源又緊急撤回的論文:《Thinking with Visual Primitives》,在 DeepSeek V4...
?? 今天來解析 GVPO(Group Verification-based Policy Optimization),使用 GRPO 訓(xùn)練 Co...
?? 今天來解讀智譜 GLM 團(tuán)隊(duì)分享的《Scaling Pain of Coding Agent Serving: Lessons from D...
?? 今天來解析 DeepSeek V4訓(xùn)練流程,主要關(guān)注預(yù)訓(xùn)練階段與 V3/V3.2 的區(qū)別、1M長上下文拓展訓(xùn)練、后訓(xùn)練 On-Policy ...
?? 昨天解析了 DeepSeek V4 的架構(gòu),解釋了 CSA+ HCA 為什么能在低 KV Cache 開銷下實(shí)現(xiàn) 1M上下文?? ?? 但是 D...