语言模型中的对齐算法的机制分析

摘要

09850v1 Announce Type: new Abstract: Post-training alignment algorithms are predominantly evaluated as black boxes, obscuring how they reshape language models' internal computations。

and alignment preference feature internal

2026-06-10 1 阅读约1分钟阅读 Aarush Sinha, Ishan Garg, Veeraraju Elluru, Arth Singh, Kushal Garg

arXiv:2606.09850v1 公告类型：新摘要：训练后对齐算法主要被评估为黑匣子，模糊了它们如何重塑语言模型的内部计算。我们对三个开放权重模型系列中的六种偏好优化方法进行了系统的机制分析：PPO、DPO、SimPO、ORPO、GRPO 和 KTO。通过集成逐层线性探测、稀疏自动编码器和交叉编码器，我们定位偏好表示并量化潜在空间中对齐引起的几何变换。我们发现偏好信号始终集中在早、中或中、晚层，但不同的目标会导致性质不同的表征转变。 KTO 和 GRPO 通过建设性特征共享和稀疏、高显着性招募来增强线性可分离性。相比之下，DPO 和 ORPO 通过非构造性几何旋转和特征衰减降低可分离性，而 PPO 和 SimPO 在很大程度上保留了基线几何形状。这些转变表现出依赖于架构的可变性，表明行为对齐并不意味着统一的内部重组。我们的研究结果将一致性建立为异构干预，激发了安全性和可解释性的标准化特征级审计，并强调了机制感知优化目标的必要性。

订阅66必读