智能AI morning

紧急调整

2026-06-19 1 阅读 Martin Kol\'a\v{r}
arXiv:2606.19527v1 公告类型:新 摘要:大型语言模型 (LLM) 能否辨别自己的输出何时与人类道德不一致?他们能自我纠正吗?我们赋予法学硕士一个良心步骤,审查其自身的推理和输出,并且我们使用直接偏好优化(DPO)通过对齐组件扩展训练损失,以引导模型远离非道德输出。其结果是一种在线技术,可以在广泛的应用中调整模型:训练、微调、对抗性提示和零样本学习。它不需要更弱或更强大的判断,而是依赖于自身的冻结副本。在之前的工作中,紧急错位场景展示了从微调模型到破解代码等一系列紧急不道德行为。相反,我们凭经验展示如何实现紧急协调:在相同的代码黑客场景下,一个高级内省问题将培训引向道德模型。