超越模式搜索强化学习：扩散语言模型的轨迹平衡后训练

2026-05-15 1 阅读 Saba Ahmadi, Prasanna Parthasarathi, Yufei Cui

arXiv:2605.13935v1 公告类型：新摘要：扩散语言模型是自回归模型的一个有前途的替代方案，但它们的后训练方法在很大程度上适应了奖励最大化目标。我们在这种设置中确定了一种中心故障模式，我们称之为轨迹锁定：采样奖励驱动的更新将概率质量过度集中到一组狭窄的去噪路径上，从而减少了重复采样下替代正确解决方案的覆盖范围。为了解决这个问题，我们提出了 TraFL（轨迹流平衡），这是一种轨迹平衡目标，可将策略训练为锚定到固定参考模型的奖励倾斜目标分布。我们通过扩散兼容的序列级代理和学习的提示依赖标准化使扩散语言模型变得实用。在数学推理和代码生成基准中，TraFL 是唯一经过评估的训练后方法，它在每个基准长度设置中都比基本模型有所改进，并且随着采样预算的增加，收益会持续存在。这些改进转移到了保留的评估上：TraFL 在 Minerva Math 上保持在基本模型之上，并且是每个 LiveCodeBench 难度划分中最强的方法。