智能AI morning

通过反事实推理路径减少信用分配方差

2026-05-19 1 阅读 Fei Ding, Yongkang Zhang, Yeling Peng, Youwei Wang, Guoxiong Zhou, Zijian Zeng
arXiv:2605.16302v1 公告类型:新摘要:使用大型语言模型(LLM)进行多步推理的强化学习通常依赖于稀疏的终端奖励,导致信用分配条件较差,最终反馈均匀地传播到所有中间决策中。这会导致高梯度方差、不稳定的训练和大量无效的更新,最终导致模型失败并阻碍持续改进。我们引入了一种基于反事实比较的信用分配框架,该框架在同一输入下对多个推理轨迹进行采样。通过将它们的差异视为替代决策的隐式近似,我们构建了一个隐式过程级优势估计器,将稀疏的终端奖励转换为阶跃敏感的学习信号。基于此,我们提出了隐式行为策略优化(IBPO),它显着提高了数学和代码推理基准的训练稳定性和性能上限,为释放法学硕士的性能潜力指明了一个有希望的方向。