离线推理训练的权重空间几何

arXiv:2606.23740v1 公告类型：新摘要：离线强化学习损失（RFT、RIFT、DFT、离线 GRPO、DPO）被广泛用于将大型教师的推理提炼为较小的学生，并且通常仅在下游准确性上进行比较。我们询问它们在机制上是否不同或收敛到类似的权重更新。使用仅注意 LoRA 从单一基础模型 (Qwen3-4B) 的相同数学部署中训练六种方法（SFT、RFT、DFT、RIFT、离线 GRPO、DPO），我们通过余弦相似性、主角子空间分析、线性模式连接和 CKA 分析生成的增量。我们观察到：(i) SFT、RFT 和 RIFT 具有几乎共线的权重增量（余弦 >= 0.97，144 个模块的 top-1 主轴角 ~7 度中值）和可比较的 GSM8K 精度（87-88%，n=1319；成对 McNemar p >= 0.15）； (ii) 尽管使用相同的数据，DFT 比任何奖励加权方法在方向上的分歧更大； (iii) 离线 GRPO 增加了与 SFT 方向正交的大量分量（全局约 67%，在后期层高达约 86%），同时保留在 SFT 损失盆地中； (iv) DPO 位于接近正交的子空间中，显示出模式连接势垒，并将后层 CKA 塌陷至约 0.46。 DPO 还在 GSM8K（93.5%，McNemar p < 10^-9 与其他方法相比）和 AIME26（30.0% 与 3.3-10.0%）上达到了我们协议中的最高准确度；它的训练使用的学习率比其他训练小 10 倍（标准约定），因此更新范数和准确性差距共同反映了损失函数和优化器的选择，并且学习率匹配的 DPO 比较留待将来的工作。