智能AI morning

离线推理训练的权重空间几何

2026-06-24 1 阅读 Aleksandr Nikolich, Igor Kiselev, Vladimir Platonov, Karina Romanova
arXiv:2606.23740v1 公告类型:新 摘要:离线强化学习损失(RFT、RIFT、DFT、离线 GRPO、DPO)被广泛用于将大型教师的推理提炼为较小的学生,并且通常仅在下游准确性上进行比较。我们询问它们在机制上是否不同或收敛到类似的权重更新。使用仅注意 LoRA 从单一基础模型 (Qwen3-4B) 的相同数学部署中训练六种方法(SFT、RFT、DFT、RIFT、离线 GRPO、DPO),我们通过余弦相似性、主角子空间分析、线性模式连接和 CKA 分析生成的增量。我们观察到:(i) SFT、RFT 和 RIFT 具有几乎共线的权重增量(余弦 >= 0.97,144 个模块的 top-1 主轴角 ~7 度中值)和可比较的 GSM8K 精度(87-88%,n=1319;成对 McNemar p >= 0.15); (ii) 尽管使用相同的数据,DFT 比任何奖励加权方法在方向上的分歧更大; (iii) 离线 GRPO 增加了与 SFT 方向正交的大量分量(全局约 67%,在后期层高达约 86%),同时保留在 SFT 损失盆地中; (iv) DPO 位于接近正交的子空间中,显示出模式连接势垒,并将后层 CKA 塌陷至约 0.46。 DPO 还在 GSM8K(93.5%,McNemar p < 10^-9 与其他方法相比)和 AIME26(30.0% 与 3.3-10.0%)上达到了我们协议中的最高准确度;它的训练使用的学习率比其他训练小 10 倍(标准约定),因此更新范数和准确性差距共同反映了损失函数和优化器的选择,并且学习率匹配的 DPO 比较留待将来的工作。