通过合规自我蒸馏降低法学硕士安全调整中的安全税

arXiv:2605.15239v1 公告类型：新摘要：安全对齐通常会以推理能力为代价来提高对有害查询的鲁棒性，这种权衡称为安全税。一个常见的原因是分布不匹配：监督微调根据人类、外部模型或固定的自生成轨迹产生的安全演示来训练目标模型，而不是根据从其自身策略采样的轨迹。我们将政策外培训不匹配视为该税收的第二个来源，并研究政策内自我蒸馏以实现安全调整，我们称之为 OPSA。该模型会生成自己的首次展示，并从其自身的冻结教师副本（以特权安全环境为条件）接收密集的每个代币 KL 监督。因为这位老师必须比采样的学生轨迹更安全，所以我们引入 \emph{老师翻转率}：衡量特权上下文将不安全响应转换为安全响应的频率的标准。我们使用这个信号来搜索激活潜在安全推理的上下文，而不仅仅是引发看似安全的演示。在两个推理模型系列和五个模型尺度上，OPSA 在匹配数据和全参数微调下实现了比离策略自蒸馏和外部教师蒸馏更强的安全推理权衡，其中较小模型的收益最大（R1-Distill-1.5B 上+8.85 分，Qwen3-0.6B 上+5.49 分）。在训练集大小和自适应越狱评估方面，这种收益仍然存在。代币级别的分析进一步表明，OPSA 将更新集中在早期合规决策代币附近，提供了一种在保留一般推理的同时提高安全性的机制。