通过同行的成功和失败进行多推出按策略蒸馏

arXiv:2605.12652v1 公告类型：新摘要：大型语言模型通常使用稀疏验证者奖励进行后训练，这表明采样轨迹是否成功，但对推理成功或失败的情况提供有限的指导。策略蒸馏（OPD）通过对学生生成的轨迹进行训练来提供更密集的令牌级监督，但现有方法通常独立地蒸馏每个推出并忽略针对同一提示采样的其他尝试。我们引入了多转出按策略蒸馏（MOPD），这是一种同伴条件蒸馏框架，它使用学生的本地转出组来构建信息更丰富的教师信号。 MOPD 为教师提供了成功和失败的同伴展示的条件：成功为有效推理模式提供了积极的证据，而失败则为需要避免的看似合理的错误提供了结构化的消极证据。我们研究两种同伴情境结构：积极的同伴模仿和对比性的成功失败条件反射。关于竞争性编程、数学推理、科学问答和工具使用基准的实验表明，MOPD 持续优于标准的政策基线。进一步的教师信号分析表明，混合的成功与失败环境可以更好地使教师分数与验证者奖励保持一致，这表明收益来自于更忠实、适应实例的监督。这些结果表明，有效的策略蒸馏应该利用学生的多次推出试错行为，而不是将推出视为孤立的样本。