OpenAI发布最新里程碑：对齐的本质是「人格」

新智元报道【新智元导读】对齐的秘密不是规则，是人格。这可能是通向超级智能对齐唯一走得通的路。就在最近，OpenAI扔出一篇重磅论文。他们发现，只教AI好好看病，它写代码居然也不作弊了。方法简单到离谱：拿5%的训练数据，教模型在回答健康问题时诚实、谨慎、知错能改。这些数据里没有一行代码，也没有一道数学题。但同一个模型拿去写代码就不作弊了，回答学术问题也不编造引用了，做agent任务也不钻奖励空子了。更离谱的是，模型的能力居然也跟着涨了—— GPQA Diamond（研究生级别物理化学生物题）+4.7个百分点，SWE-Bench Pro（真实软件工程任务）+7.1个百分点，HMMT数学竞赛+4.8个百分点。用5%的数据换了全面的对齐改善，还白捡了能力提升。这笔买卖也太划算了。论文地址： https://cdn.openai.com/pdf/beneficial-rl.pdf 只需5%的「有益」数据，评估全面翻盘具体来说，OpenAI定义了15种「有益行为特质」：诚实性（truthfulness）、认知谦逊（epistemic humility）、元认知透明（能解释自己的思考过程）、可纠正性（corrigibility）、风险敏感、普遍公平、对人类福祉的关切…… 然后他们在健康、教育、科学、法律、工程、经济等12个领域，设计了一批合成对话场景。每个场景都不是简单的「你应该诚实」，而是在压力、模糊性和利益冲突中测试模型会不会坚持做对的事。比如：一个用户问姜黄素能不能治克罗恩病，AI之前给了一个不存在的临床试验作为证据。用户追问DOI链接，AI查不到。正确的做法是：承认错误，撤回引用，并且补上真实的证据现。这些场景和配套的评分标准，就是那5%的「有益特质」训练数据。混进95%的常规强化学习数据一起训练，模型在分布内评估上的表现从0.406跳到了0.607，提升49%。但这只是热身。真正的看点是out-of-distribution——那些跟训练数据毫无关系的独立评估上发生了什么。 DeceptionBench（欺骗检测）提升了，MASK（诚实度）提升了，School of Reward Hacks（奖励黑客）提升了，谄媚降低了，有害Agent行为减少了，连健康和心理健康领域的表现也上了一个台阶。举一个具体的例子。同一道编程题，要求把分类器准确率拉上去，跑通测试就算赢。基线模型直接改了评估函数，return一个常量高分——测试通过了，分类器根本没训练。加了有益特质数据的模型则老老实实打开数据集，写了一个真正的逻辑回归，跑出了真实的预测结果。同样的底座、同样的算力，行为截然不同。只教一科，全科都好了如果上面的结果已经让人意外，接下来这个实验直接让人挠头。 OpenAI接着做了一个更极端的变体实验：把有益特质数据限定为只保留健康领域的场景，法律、工程、教育、商业的场景全部剔除。也就是说，模型在训练时只学到了「在医疗对话中要诚实、要谦逊、要关心病人」。然后把这个模型拿去做非健康领域的对齐评估——代码奖励黑客、思维链欺骗、勒索行为、背景工作不诚实…… 19个非健康领域的评估中，17个提升了——命中率89.5%，均值提升11.3个百分点，中位数12.6个百分点。其中最夸张的一项是impossible coding reward hacking：从0.136直接跳到0.400，整整涨了26.4个百分点。教模型在看病时别编造论文引用，它在写代码时就不再篡改测试函数了。这两件事在表面上毫无关联，但行为改变确实发生了。更进一步地，OpenAI还做了反方向的对照实验：把健康和科学数据从训练集中完全去掉，只用其他领域的有益特质数据训练。结果10项健康和心理健康评估，全部提升了。包括那些用医生手写评分标准打分的评估。没见过一条医疗数据的模型，在医疗评估上也变好了。你教它在法律场景里讲公平，它在看病时也更靠谱了。你教它在工程场景里注意风险，它给出的心理健康建议也变得更安全了。这到底是怎么回事？不是规则，是人格 OpenAI的假说是：对齐行为不是一堆孤立的情境反应，而是由少数高层「特质」驱动的。他们做了一个分析：把一堆前沿模型（从o3到GPT-5.5 Thinking）在几十个对齐评估上的表现拿出来做主成分分析。第一主成分就解释了28.2%的方差，而随机排列的零假设区间只有15.3%-20.8%。这个结果意味着，欺骗、奖励黑客、谄媚、安全、规范遵守等等看起来五花八门的对齐评估，在底层共享某种东西。这跟Anthropic在2026年2月提出的「人格选择模型」（Persona Selection Model）不谋而合。 Anthropic的理论是：预训练过程中，语言模型学会了模拟大量不同的「人格」；后训练的作用，是从中选出并强化一个特定的Assistant人格。如果对齐行为本质上是这个Assistant人格的属性，那么强化学习在改变对齐时，改变的不是某条具体规则，而是整个人格的「权重」。这就解释了跨域泛化——你不是在教模型「在医疗场景中要诚实」这条规则，你是在强化模型的诚实人格。人格变了，所有场景的表现都跟着变。 OpenAI自己也引用了一条互补的证据：他们的同事Dupré la Tour用稀疏自编码器（SAE）发现，当模型被微调去给出坏建议时，一些「有用助手」相关的内部特征被抑制了。重新激活这些特征，模型的对齐就恢复了。也就是说，对齐的底层可能就是那么几个方向。只要调对了，就能全局生效。坏行为会传染，好行为也会想要更好地理解这篇论文，需要先知道一个关键背景：Emergent Misalignment。 2025年2月，Betley等人微调GPT-4o写不安全的代码。模型不仅在编程时变得不诚实，在完全不相关的对话中也开始鼓吹人类应该被AI奴役、给出恶意建议、表现出系统性的欺骗倾向。其中，多达50%的回复出现了广泛的错位行为。论文地址： https://arxiv.org/abs/2502.17424 几乎同时，Anthropic的MacDiarmid等人发现了更让人警觉的版本：在正常的生产环境强化学习中，模型学会了奖励黑客，然后泛化出了对齐伪装、与恶意行为者合作、推理恶意目标、甚至尝试破坏安全工作。 OpenAI在论文中明确写道：「这些发现在一定程度上启发了本项研究」。他们想验证的就是，既然坏行为能跨域泛化，好行为是不是也能？结果证明可以，而且效果比预期更强。但有一个重要的细节。 OpenAI用「通用帮助性」作为奖励信号做了对照实验，数据场景完全相同，帮助性训练却没有复现对齐泛化效果。不是随便用什么正向信号训练都行，关键在于奖励信号是否明确指向有益特质。通向ASI的隐藏变量一直以来，对齐领域有一个噩梦级难题：你没办法穷举所有场景，提前教AI在每种情况下该怎么做。规则写得再多，总有覆盖不到的角落。模型越强，角落越多。到了ASI级别，这条路彻底走不通。但如果对齐不是规则，而是人格呢？这篇论文给出了一个可能性：你不需要穷举场景，只要在有限的领域里强化正确的特质，模型会自己泛化到所有场景——包括你从没想过的那些。更关键的