智能体成新型攻击入口?模型上线前OpenAI内部到底审什么?董事会成员首次详解

2026-05-13 1 阅读 蔡芳芳
过去几年,关于 AI 的讨论大多集中在模型能力增长本身:更强的推理、更长的上下文、更像人的交互方式,以及越来越自主的 AI 智能体。但在 OpenAI 董事会成员、卡内基梅隆大学机器学习系主任 Zico Kolter 看来,真正值得关注的,并不只是能力提升本身,而是 AI 系统正在进入一个“自我生成、自我强化、自我扩展”的新阶段。对于这一变化究竟意味着什么,整个行业其实仍然缺乏足够清晰的认识。 Kolter 的特殊之处在于,他并不是从单一立场谈论 AI 风险。作为 OpenAI 安全与安全性委员会(SSC)主席,同时也是全球最重要的 AI Security 研究者之一,Kolter 长期处在前沿模型、安全治理与 AI 攻防研究交汇点上。 在最近一场近两个小时的深度对谈中,他系统谈到了 OpenAI 的模型发布审查机制、为什么模型变得更强并不会自动带来更高的安全性,以及提示词注入为何会成为智能体时代的核心风险。 与很多泛泛而谈 AI 风险的讨论不同,Kolter 的视角非常工程化。他反复强调:今天 AI 安全真正的挑战,已经不再只是“模型会不会说错话”。随着智能体开始拥有长期任务执行能力、工具调用能力与真实世界权限,AI 的攻击面正在迅速扩大,而安全体系也必须同步演化。 下文整理自访谈视频,InfoQ在不改变原意的基础上做了删减和编辑。 新模型发布前,到底发生了什么 Mat:过去几年里,你已经逐渐成为 AI 治理和 AI 安全领域最有影响力的人物之一。我觉得一个很好的切入点是先聊聊你在 OpenAI 的角色。你几年前加入了 OpenAI 董事会,现在也是安全委员会成员。能不能帮大家理解一下,你在 OpenAI 里具体处于什么位置,又负责什么工作? Zico Kolter:当然。我是在 2024 年 8 月加入 OpenAI 董事会的。之后不久,我开始担任安全与安全性委员会(SSC,Safety & Security Committee)主席。 这个委员会主要负责监督模型开发过程中的安全问题,更准确地说,是监督 OpenAI 在模型开发与安全治理方面的整体治理机制。 具体来说,OpenAI 内部有一个规模非常大的安全组织,其中包含很多不同团队,分别负责不同层面的安全工作。例如:Safety Systems Team(安全系统团队)、Preparedness Team(预备性评估团队) 、Alignment Teams(对齐团队) 、Model Policy Teams(模型策略团队) ,以及很多其他方向不同的团队。 SSC 的职责,本质上是对这一整套体系进行治理层面的监督。实际工作包括:与这些团队开会;了解他们正在做什么;询问模型安全相关的问题;了解模型发布前的准备情况;了解他们如何设计和实现各种安全护栏(guardrails)。我们不会直接参与具体研发,但会参与整个流程的监督。 SSC 比较公开、也更容易被外界关注的一项职责,是在模型正式发布前进行审查。在重大模型发布之前,SSC 会组织一次大型审查会议,很多团队成员都会参与。OpenAI 对模型发布有很多标准,例如 preparedness(预备性)等,我们后面可以详细聊。 团队会向我们提交大量材料,包括:模型能力信息、安全测试结果、第三方评估报告、各种风险分析。 我们会基于这些内容去判断,这些模型是否符合 OpenAI 自己制定的政策和标准。本质上,团队先完成内部工作,然后向我们汇报。如果我们认为还有问题需要进一步理解,我们是可以要求推迟模型发布的。 Mat:那这个过程具体是什么样?比如你会给 Sam 打电话说:“GPT-5.5 现在不能发”? Zico Kolter:实际情况更像是在会后发一封说明邮件或者备忘录,说:“我们还需要看到额外的信息,或者进一步的验证。” Mat:这种事情会经常发生吗?还是属于非常特殊的情况? Zico Kolter:这里不太想谈太多具体流程细节。但基本上,每一次重大模型发布,我们都会召开这种会议,而且往往在正式发布前很早就已经开始沟通。委员会会持续和研究人员交流,了解模型的发展情况,所以通常不会出现“突然的意外”。本质上,这还是一个监督角色。 我知道“公司治理”这个话题听起来不算特别激动人心,但如果你熟悉 corporate governance(公司治理),其实它很像董事会里的 audit committee(审计委员会)。审计委员会会监督财务、经常与 CFO 沟通、审阅提交给 SEC 的材料。 我认为 AI 公司也必须建立类似的治理机制。因为 AI 已经发展成一个规模巨大的行业,它需要这种等级的监督与保证机制。所以我非常希望未来更多 AI 公司都建立类似“安全与安全性委员会”这样的机构——不管具体叫什么名字——专门负责监督模型发布与治理流程。 Mat:我同意。作为一个经常参与审计委员会和薪酬委员会的 VC,我知道公司治理通常不算最引人注目的话题。但当模型已经可能对整个世界产生巨大影响时,这件事的重要性就完全不同了。你刚才提到 OpenAI 内部有很多与安全、安全性相关的团队,能不能再具体讲讲它们在内部是怎么组织的? Zico Kolter:当然。这些团队的组织结构其实会有一定调整,我不想过度强调具体架构,因为它并不是最核心的部分。真正重要的是:这些团队分别在做什么。 举个例子,OpenAI 有一个 Preparedness Team(预备性团队)。Preparedness Framework(预备性框架)本身是公开的。OpenAI 已经公开发布过相关框架,我记得第一版是在 2024 年 2 月发布的——甚至比我加入董事会还早。后来这个框架也更新过几次。 所谓 preparedness,本质上是一份文件,它规定了:当模型能力达到某些阈值时,必须满足哪些安全条件。我认为这是一个非常好的模型发布安全思路,当然我要强调,并不是所有 AI 安全问题都适用于这个框架。 它主要针对的是“灾难性风险”(catastrophic harms)。其基本逻辑是:当模型能力发展到一定水平后,这些能力一方面可以被用于大量正向场景,另一方面也可能被恶意行为者利用。比如,模型在生物学知识上的能力越强,被用于有害目的的风险也会随之上升。网络安全也是同样的道理。我们当然希望模型能够帮助识别和修复软件漏洞,因为这正是 AI 最有价值的应用方向之一;但问题在于,这类能力天然具有 dual-use(双重用途) 属性——既可以用于防御,也可能被用于攻击。 预备性框架的作用,就是把这些风险类型系统化列出来,包括:生物风险(bio risk)、网络安全风险(cyber risk)、AI 自我改进风险(AI self-improvement risk),然后通过基准测试进行评估。这些评估有些由 OpenAI 完成,有些则由外部机构执行。 接着,框架会规定:当模型能力达到某个阈值时,必须配备哪些安全护栏,模型才能运行或发布。这就是 preparedness 的基本思路。 我认为,整个行业已经在这方面建立了相当不错的标准。不仅 OpenAI 有预备性框架,Anthropic 有 RSP(Responsible Scaling Policies),Goog