强化学习迈向广泛且持久有益的模型

arXiv:2606.24014v1 公告类型：新摘要：随着人工智能系统在日益多样化和高风险的环境中部署，模型对齐必须推广到训练期间看到的任务和领域之外。这对于强化学习 (RL) 来说尤其重要，因为强化学习可能会通过奖励黑客、欺骗或其他意外策略引入意外的错位。我们研究在现实领域中实例化的有益行为的强化学习是否可以产生超出训练分布的广泛且持久的对齐泛化。我们构建了一个真实情况数据集，旨在衡量和训练有益特征，例如真实性、公平性、风险意识和可纠正性，涵盖健康、科学和教育等不同领域。然后，我们在此数据集上使用 RL 训练模型，并根据 50 多个独立的对齐和有益行为基准对其进行评估。与计算匹配的基准相比，有益特征 RL 提高了超过 80% 的分布外基准的性能。我们观察到大量的分布外对齐转移：完全局限于一个领域（健康）的有益行为强化学习干预对非健康对齐评估产生了广泛的改进，包括减少奖励黑客、欺骗和一般失调。最后，我们研究对齐持久性：在尝试引导模型走向错位的情况下，行为是否保持稳健对齐。使用有益特征强化学习训练的模型显示出更高的持久性，包括对对抗性提示和有害微调的更强抵抗力；需要进一步开展工作来隔离这些影响的来源。这些结果表明，强化现实领域中有益行为的强化学习可以产生更符合人类繁荣的模型。