智能体成新型攻击入口？模型上线前OpenAI内部到底审什么？董事会成员首次详解

过去几年，关于 AI 的讨论大多集中在模型能力增长本身：更强的推理、更长的上下文、更像人的交互方式，以及越来越自主的 AI 智能体。但在 OpenAI 董事会成员、卡内基梅隆大学机器学习系主任 Zico Kolter 看来，真正值得关注的，并不只是能力提升本身，而是 AI 系统正在进入一个“自我生成、自我强化、自我扩展”的新阶段。对于这一变化究竟意味着什么，整个行业其实仍然缺乏足够清晰的认识。 Kolter 的特殊之处在于，他并不是从单一立场谈论 AI 风险。作为 OpenAI 安全与安全性委员会（SSC）主席，同时也是全球最重要的 AI Security 研究者之一，Kolter 长期处在前沿模型、安全治理与 AI 攻防研究交汇点上。在最近一场近两个小时的深度对谈中，他系统谈到了 OpenAI 的模型发布审查机制、为什么模型变得更强并不会自动带来更高的安全性，以及提示词注入为何会成为智能体时代的核心风险。与很多泛泛而谈 AI 风险的讨论不同，Kolter 的视角非常工程化。他反复强调：今天 AI 安全真正的挑战，已经不再只是“模型会不会说错话”。随着智能体开始拥有长期任务执行能力、工具调用能力与真实世界权限，AI 的攻击面正在迅速扩大，而安全体系也必须同步演化。下文整理自访谈视频，InfoQ在不改变原意的基础上做了删减和编辑。新模型发布前，到底发生了什么 Mat：过去几年里，你已经逐渐成为 AI 治理和 AI 安全领域最有影响力的人物之一。我觉得一个很好的切入点是先聊聊你在 OpenAI 的角色。你几年前加入了 OpenAI 董事会，现在也是安全委员会成员。能不能帮大家理解一下，你在 OpenAI 里具体处于什么位置，又负责什么工作？ Zico Kolter：当然。我是在 2024 年 8 月加入 OpenAI 董事会的。之后不久，我开始担任安全与安全性委员会（SSC，Safety & Security Committee）主席。这个委员会主要负责监督模型开发过程中的安全问题，更准确地说，是监督 OpenAI 在模型开发与安全治理方面的整体治理机制。具体来说，OpenAI 内部有一个规模非常大的安全组织，其中包含很多不同团队，分别负责不同层面的安全工作。例如：Safety Systems Team（安全系统团队）、Preparedness Team（预备性评估团队）、Alignment Teams（对齐团队）、Model Policy Teams（模型策略团队），以及很多其他方向不同的团队。 SSC 的职责，本质上是对这一整套体系进行治理层面的监督。实际工作包括：与这些团队开会；了解他们正在做什么；询问模型安全相关的问题；了解模型发布前的准备情况；了解他们如何设计和实现各种安全护栏（guardrails）。我们不会直接参与具体研发，但会参与整个流程的监督。 SSC 比较公开、也更容易被外界关注的一项职责，是在模型正式发布前进行审查。在重大模型发布之前，SSC 会组织一次大型审查会议，很多团队成员都会参与。OpenAI 对模型发布有很多标准，例如 preparedness（预备性）等，我们后面可以详细聊。团队会向我们提交大量材料，包括：模型能力信息、安全测试结果、第三方评估报告、各种风险分析。我们会基于这些内容去判断，这些模型是否符合 OpenAI 自己制定的政策和标准。本质上，团队先完成内部工作，然后向我们汇报。如果我们认为还有问题需要进一步理解，我们是可以要求推迟模型发布的。 Mat：那这个过程具体是什么样？比如你会给 Sam 打电话说：“GPT-5.5 现在不能发”？ Zico Kolter：实际情况更像是在会后发一封说明邮件或者备忘录，说：“我们还需要看到额外的信息，或者进一步的验证。” Mat：这种事情会经常发生吗？还是属于非常特殊的情况？ Zico Kolter：这里不太想谈太多具体流程细节。但基本上，每一次重大模型发布，我们都会召开这种会议，而且往往在正式发布前很早就已经开始沟通。委员会会持续和研究人员交流，了解模型的发展情况，所以通常不会出现“突然的意外”。本质上，这还是一个监督角色。我知道“公司治理”这个话题听起来不算特别激动人心，但如果你熟悉 corporate governance（公司治理），其实它很像董事会里的 audit committee（审计委员会）。审计委员会会监督财务、经常与 CFO 沟通、审阅提交给 SEC 的材料。我认为 AI 公司也必须建立类似的治理机制。因为 AI 已经发展成一个规模巨大的行业，它需要这种等级的监督与保证机制。所以我非常希望未来更多 AI 公司都建立类似“安全与安全性委员会”这样的机构——不管具体叫什么名字——专门负责监督模型发布与治理流程。 Mat：我同意。作为一个经常参与审计委员会和薪酬委员会的 VC，我知道公司治理通常不算最引人注目的话题。但当模型已经可能对整个世界产生巨大影响时，这件事的重要性就完全不同了。你刚才提到 OpenAI 内部有很多与安全、安全性相关的团队，能不能再具体讲讲它们在内部是怎么组织的？ Zico Kolter：当然。这些团队的组织结构其实会有一定调整，我不想过度强调具体架构，因为它并不是最核心的部分。真正重要的是：这些团队分别在做什么。举个例子，OpenAI 有一个 Preparedness Team（预备性团队）。Preparedness Framework（预备性框架）本身是公开的。OpenAI 已经公开发布过相关框架，我记得第一版是在 2024 年 2 月发布的——甚至比我加入董事会还早。后来这个框架也更新过几次。所谓 preparedness，本质上是一份文件，它规定了：当模型能力达到某些阈值时，必须满足哪些安全条件。我认为这是一个非常好的模型发布安全思路，当然我要强调，并不是所有 AI 安全问题都适用于这个框架。它主要针对的是“灾难性风险”（catastrophic harms）。其基本逻辑是：当模型能力发展到一定水平后，这些能力一方面可以被用于大量正向场景，另一方面也可能被恶意行为者利用。比如，模型在生物学知识上的能力越强，被用于有害目的的风险也会随之上升。网络安全也是同样的道理。我们当然希望模型能够帮助识别和修复软件漏洞，因为这正是 AI 最有价值的应用方向之一；但问题在于，这类能力天然具有 dual-use（双重用途）属性——既可以用于防御，也可能被用于攻击。预备性框架的作用，就是把这些风险类型系统化列出来，包括：生物风险（bio risk）、网络安全风险（cyber risk）、AI 自我改进风险（AI self-improvement risk），然后通过基准测试进行评估。这些评估有些由 OpenAI 完成，有些则由外部机构执行。接着，框架会规定：当模型能力达到某个阈值时，必须配备哪些安全护栏，模型才能运行或发布。这就是 preparedness 的基本思路。我认为，整个行业已经在这方面建立了相当不错的标准。不仅 OpenAI 有预备性框架，Anthropic 有 RSP（Responsible Scaling Policies），Goog