?? 今天來解析 GVPO(Group Verification-based Policy Optimization),使用 GRPO 訓(xùn)練 Coding Agent 存在獎(jiǎng)勵(lì)錯(cuò)位問題:
?? 早錯(cuò)晚對(duì)的trajectory被過度獎(jiǎng)勵(lì)。
?? 早對(duì)晚錯(cuò)的trajectory被全盤丟棄(0獎(jiǎng)勵(lì))。
?? GVPO 加入過程獎(jiǎng)勵(lì),并且重新在 coding agent 的 trajectory 上分配獎(jiǎng)勵(lì)。




