IP屬地:上海
?? 本期介紹米哈游DPO面試題三連問:DPO訓練后為什么偏好更長輸出?有什么問題?如何緩解?
?? 今天來解析面試題:如何根據RL任務調整KL散度?是否應該去掉KL?GRPO之后有哪些KL優(yōu)化策略?
?? 今天來解析26暑期實習面試中大模型強化學習 RL、Agentic RL、RL Agent 的高頻考點考題。
?? 最近發(fā)布的大模型(多模態(tài)大模型)普遍都使用了 MTP (Multi-Token Prediction),包括 DeepSeek v4 / Q...
?? 今天解析DeepSeek開源又緊急撤回的論文:《Thinking with Visual Primitives》,在 DeepSeek V4...
?? 今天來解析 GVPO(Group Verification-based Policy Optimization),使用 GRPO 訓練 Co...
?? 今天來解讀智譜 GLM 團隊分享的《Scaling Pain of Coding Agent Serving: Lessons from D...
?? 今天來解析 DeepSeek V4訓練流程,主要關注預訓練階段與 V3/V3.2 的區(qū)別、1M長上下文拓展訓練、后訓練 On-Policy ...
?? 昨天解析了 DeepSeek V4 的架構,解釋了 CSA+ HCA 為什么能在低 KV Cache 開銷下實現 1M上下文?? ?? 但是 D...