政策蒸馏的多面性：陷阱、机制和修复

arXiv:2605.11182v1 公告类型：新摘要：在策略蒸馏（OPD）和在策略自蒸馏（OPSD）已成为大型语言模型有前途的后训练方法，为从模型自身策略采样的轨迹提供密集的令牌级监督。然而，其有效性的现有结果仍然好坏参半：虽然 OP(S)D 在系统提示和知识内化方面显示出希望，但最近的研究也报告了不稳定和退化。在这项工作中，我们对 OPD 和 OPSD 何时有效、何时失败以及原因进行了全面的实证研究。我们发现数学推理上的 OPD 对教师选择和损失公式高度敏感，而 OPSD 在我们的测试设置中失败，因为测试时缺乏特定于实例的特权信息 (PI)。相反，当 PI 表示共享的潜在规则（例如系统提示或对齐偏好）时，OPSD 是有效的。我们确定了三种失败机制：（1）由于对学生生成的前缀进行调节而导致教师和学生之间的分布不匹配，（2）有偏差的 TopK 反向 KL 梯度导致的优化不稳定，以及（3）特定于 OPSD 的限制，即学生学习聚合 PI 条件教师的无 PI 策略，当 PI 是特定于实例时，这是不够的。我们进一步表明，停止梯度 TopK 目标、适应 RLVR 的教师和稳定 SFT 的学生可以减轻这些失败。