通过反事实推理路径减少信用分配方差

2026-05-19 1 阅读 Fei Ding, Yongkang Zhang, Yeling Peng, Youwei Wang, Guoxiong Zhou, Zijian Zeng

arXiv:2605.16302v1 公告类型：新摘要：使用大型语言模型（LLM）进行多步推理的强化学习通常依赖于稀疏的终端奖励，导致信用分配条件较差，最终反馈均匀地传播到所有中间决策中。这会导致高梯度方差、不稳定的训练和大量无效的更新，最终导致模型失败并阻碍持续改进。我们引入了一种基于反事实比较的信用分配框架，该框架在同一输入下对多个推理轨迹进行采样。通过将它们的差异视为替代决策的隐式近似，我们构建了一个隐式过程级优势估计器，将稀疏的终端奖励转换为阶跃敏感的学习信号。基于此，我们提出了隐式行为策略优化（IBPO），它显着提高了数学和代码推理基准的训练稳定性和性能上限，为释放法学硕士的性能潜力指明了一个有希望的方向。