$\xi$-DPO：通过比率奖励保证金直接偏好优化

arXiv:2605.10981v1 公告类型：新摘要：无参考偏好优化已成为人类反馈强化学习的有效替代方案，简单偏好优化（SimPO）通过简单的目标消除显式参考模型，展示了强大的性能。然而，SimPO 中超参数 $\beta$ 和 $\gamma$ 的联合调整仍然是一个核心挑战。我们认为，之所以出现这种困难，是因为 SimPO 中的保证金公式在具有不同奖励差距结构的数据集中不容易解释。为了更好地理解这个问题，我们对SimPO进行了全面分析，发现$\beta$隐式控制样本过滤，而$\gamma$的效果取决于数据集的奖励差距结构。受这些观察的启发，我们提出 $\xi$-DPO：通过比率奖励裕度进行直接偏好优化。我们首先通过等效变换重新制定偏好目标，将优化目标从最大化奖励差距的可能性更改为最小化奖励差距与最佳利润之间的距离。然后，我们以选择和拒绝之间的比率形式重新定义奖励，这有效地消除了 $\beta$ 的影响，并产生有界且可解释的边际。该保证金称为比率奖励保证金，用 $\xi$ 表示。与 SimPO 中的边际 $\gamma$ 不同，$\xi$ 明确表示选择的响应和拒绝的响应之间所需的相对间隔，并且可以根据初始奖励差距分布确定，从而避免重复的试错调整。 ....