保持旋转的监督微调

2026-05-13 1 阅读 Hangzhan Jin, Tianwei Ni, Lu Li, Pierre-Luc Bacon, Mohammad Hamdaqa, Doina Precup

arXiv:2605.10973v1 公告类型：新摘要：监督微调（SFT）可提高域内性能，但会降低域外（OOD）泛化能力。先前的工作表明，这种退化与预训练权重矩阵的主导奇异子空间的变化有关。然而，在法学硕士规模上，使用 Hessian 或 Fisher 信息直接识别损失敏感方向的计算成本很高。在这项工作中，我们建议在预训练的奇异子空间中保留投影旋转，作为费舍尔敏感方向的有效代理，我们将其称为旋转保留监督微调（RPSFT）。 RPSFT 惩罚每个预训练权重矩阵的投影 top-$k$ 奇异向量块的变化，限制不必要的旋转，同时保留任务适应性。在数学推理数据训练的模型系列和规模中，RPSFT 改进了标准 SFT 和强 SFT 基线的域内/OOD 权衡，更好地保留了预训练表示，并为下游 RL 微调提供了更强的初始化。代码可在 \href{https://github.com/jinhangzhan/RPSFT.git}{https://github.com/jinhangzhan/RPSFT} 获取。