紧急调整 - 66必读

紧急调整

摘要

19527v1 Announce Type: new Abstract: Can Large Language Models (LLMs) discern when their own outputs are misaligned with human ethics。And can they self-correct。

the outputs with and training

2026-06-19 1 阅读约1分钟阅读 Martin Kol\'a\v{r}

arXiv:2606.19527v1 公告类型：新摘要：大型语言模型 (LLM) 能否辨别自己的输出何时与人类道德不一致？他们能自我纠正吗？我们赋予法学硕士一个良心步骤，审查其自身的推理和输出，并且我们使用直接偏好优化（DPO）通过对齐组件扩展训练损失，以引导模型远离非道德输出。其结果是一种在线技术，可以在广泛的应用中调整模型：训练、微调、对抗性提示和零样本学习。它不需要更弱或更强大的判断，而是依赖于自身的冻结副本。在之前的工作中，紧急错位场景展示了从微调模型到破解代码等一系列紧急不道德行为。相反，我们凭经验展示如何实现紧急协调：在相同的代码黑客场景下，一个高级内省问题将培训引向道德模型。

订阅66必读