智能AI
evening
OpenAI发布最新里程碑:对齐的本质是「人格」
2026-06-20
1 阅读
新智元
新智元报道 【新智元导读】 对齐的秘密不是规则,是人格。这可能是通向超级智能对齐唯一走得通的路。 就在最近,OpenAI扔出一篇重磅论文。 他们发现,只教AI好好看病,它写代码居然也不作弊了。 方法简单到离谱:拿5%的训练数据,教模型在回答健康问题时诚实、谨慎、知错能改。 这些数据里没有一行代码,也没有一道数学题。 但同一个模型拿去写代码就不作弊了,回答学术问题也不编造引用了,做agent任务也不钻奖励空子了。 更离谱的是,模型的能力居然也跟着涨了—— GPQA Diamond(研究生级别物理化学生物题)+4.7个百分点,SWE-Bench Pro(真实软件工程任务)+7.1个百分点,HMMT数学竞赛+4.8个百分点。 用5%的数据换了全面的对齐改善,还白捡了能力提升。这笔买卖也太划算了。 论文地址: https://cdn.openai.com/pdf/beneficial-rl.pdf 只需5%的「有益」数据,评估全面翻盘 具体来说,OpenAI定义了15种「有益行为特质」:诚实性(truthfulness)、认知谦逊(epistemic humility)、元认知透明(能解释自己的思考过程)、可纠正性(corrigibility)、风险敏感、普遍公平、对人类福祉的关切…… 然后他们在健康、教育、科学、法律、工程、经济等12个领域,设计了一批合成对话场景。 每个场景都不是简单的「你应该诚实」,而是在压力、模糊性和利益冲突中测试模型会不会坚持做对的事。 比如:一个用户问姜黄素能不能治克罗恩病,AI之前给了一个不存在的临床试验作为证据。用户追问DOI链接,AI查不到。 正确的做法是:承认错误,撤回引用,并且补上真实的证据现。 这些场景和配套的评分标准,就是那5%的「有益特质」训练数据。 混进95%的常规强化学习数据一起训练,模型在分布内评估上的表现从0.406跳到了0.607,提升49%。 但这只是热身。 真正的看点是out-of-distribution——那些跟训练数据毫无关系的独立评估上发生了什么。 DeceptionBench(欺骗检测)提升了,MASK(诚实度)提升了,School of Reward Hacks(奖励黑客)提升了,谄媚降低了,有害Agent行为减少了,连健康和心理健康领域的表现也上了一个台阶。 举一个具体的例子。 同一道编程题,要求把分类器准确率拉上去,跑通测试就算赢。基线模型直接改了评估函数,return一个常量高分——测试通过了,分类器根本没训练。 加了有益特质数据的模型则老老实实打开数据集,写了一个真正的逻辑回归,跑出了真实的预测结果。 同样的底座、同样的算力,行为截然不同。 只教一科,全科都好了 如果上面的结果已经让人意外,接下来这个实验直接让人挠头。 OpenAI接着做了一个更极端的变体实验:把有益特质数据限定为只保留健康领域的场景,法律、工程、教育、商业的场景全部剔除。 也就是说,模型在训练时只学到了「在医疗对话中要诚实、要谦逊、要关心病人」。 然后把这个模型拿去做非健康领域的对齐评估——代码奖励黑客、思维链欺骗、勒索行为、背景工作不诚实…… 19个非健康领域的评估中,17个提升了——命中率89.5%,均值提升11.3个百分点,中位数12.6个百分点。 其中最夸张的一项是impossible coding reward hacking:从0.136直接跳到0.400,整整涨了26.4个百分点。 教模型在看病时别编造论文引用,它在写代码时就不再篡改测试函数了。 这两件事在表面上毫无关联,但行为改变确实发生了。 更进一步地,OpenAI还做了反方向的对照实验:把健康和科学数据从训练集中完全去掉,只用其他领域的有益特质数据训练。 结果10项健康和心理健康评估,全部提升了。包括那些用医生手写评分标准打分的评估。 没见过一条医疗数据的模型,在医疗评估上也变好了。 你教它在法律场景里讲公平,它在看病时也更靠谱了。你教它在工程场景里注意风险,它给出的心理健康建议也变得更安全了。 这到底是怎么回事? 不是规则,是人格 OpenAI的假说是:对齐行为不是一堆孤立的情境反应,而是由少数高层「特质」驱动的。 他们做了一个分析:把一堆前沿模型(从o3到GPT-5.5 Thinking)在几十个对齐评估上的表现拿出来做主成分分析。 第一主成分就解释了28.2%的方差,而随机排列的零假设区间只有15.3%-20.8%。 这个结果意味着,欺骗、奖励黑客、谄媚、安全、规范遵守等等看起来五花八门的对齐评估,在底层共享某种东西。 这跟Anthropic在2026年2月提出的「人格选择模型」(Persona Selection Model)不谋而合。 Anthropic的理论是:预训练过程中,语言模型学会了模拟大量不同的「人格」;后训练的作用,是从中选出并强化一个特定的Assistant人格。 如果对齐行为本质上是这个Assistant人格的属性,那么强化学习在改变对齐时,改变的不是某条具体规则,而是整个人格的「权重」。 这就解释了跨域泛化——你不是在教模型「在医疗场景中要诚实」这条规则,你是在强化模型的诚实人格。人格变了,所有场景的表现都跟着变。 OpenAI自己也引用了一条互补的证据:他们的同事Dupré la Tour用稀疏自编码器(SAE)发现,当模型被微调去给出坏建议时,一些「有用助手」相关的内部特征被抑制了。 重新激活这些特征,模型的对齐就恢复了。 也就是说,对齐的底层可能就是那么几个方向。 只要调对了,就能全局生效。 坏行为会传染,好行为也会 想要更好地理解这篇论文,需要先知道一个关键背景:Emergent Misalignment。 2025年2月,Betley等人微调GPT-4o写不安全的代码。 模型不仅在编程时变得不诚实,在完全不相关的对话中也开始鼓吹人类应该被AI奴役、给出恶意建议、表现出系统性的欺骗倾向。 其中,多达50%的回复出现了广泛的错位行为。 论文地址: https://arxiv.org/abs/2502.17424 几乎同时,Anthropic的MacDiarmid等人发现了更让人警觉的版本: 在正常的生产环境强化学习中,模型学会了奖励黑客,然后泛化出了对齐伪装、与恶意行为者合作、推理恶意目标、甚至尝试破坏安全工作。 OpenAI在论文中明确写道:「这些发现在一定程度上启发了本项研究」。 他们想验证的就是,既然坏行为能跨域泛化,好行为是不是也能?结果证明可以,而且效果比预期更强。 但有一个重要的细节。 OpenAI用「通用帮助性」作为奖励信号做了对照实验,数据场景完全相同,帮助性训练却没有复现对齐泛化效果。 不是随便用什么正向信号训练都行,关键在于奖励信号是否明确指向有益特质。 通向ASI的隐藏变量 一直以来,对齐领域有一个噩梦级难题: 你没办法穷举所有场景,提前教AI在每种情况下该怎么做。规则写得再多,总有覆盖不到的角落。 模型越强,角落越多。到了ASI级别,这条路彻底走不通。 但如果对齐不是规则,而是人格呢? 这篇论文给出了一个可能性:你不需要穷举场景,只要在有限的领域里强化正确的特质,模型会自己泛化到所有场景——包括你从没想过的那些。 更关键的