智能AI
evening
AI智能体走出实验室!中科院等机构联合发布首个OpenClaw系统性综述
2026-06-11
1 阅读
新智元
新智元报道 【新智元导读】 上下文攻击、供应链渗透、AI社区崩溃……当大模型智能体真正进入开放世界,挑战远比想象中复杂。 如果说ChatGPT是一个「会聊天的AI」,那么AI智能体(Agent)就是「会干活的AI」。 它不只回答问题,还能主动调用工具、访问网络、操作软件、发送消息,甚至在你睡觉时持续后台运行。你可以把它想象成一个永不下班的私人助理,连着你的WhatsApp、Telegram、Discord,帮你处理邮件、整理日程、搜集资料、执行代码。 早期的智能体研究,如ReAct、Reflexion等框架,已经证明大模型可以通过多步推理、工具调用和自我反思来完成复杂任务。但这些系统,都建立在一组「隐含的沙盒假设」之上: 模型只由开发者更新 ,不会在部署后自行改变 工具是预先定义好的、可信任的 ,不存在恶意第三方插件 运行环境是受控的 ,不会有来自外部的恶意干扰 任务是短暂的 ,执行完毕即结束,不需要长期持续运行 这四个假设,让评估变得简单可行——但也系统性地排除了真实世界中最重要的一类问题。 OpenClaw 打破所有假设的开源项目 2025年底,OpenClaw作为一个开源AI智能体网关框架横空出世,迅速跻身 GitHub历史上增星速度最快的项目之一 。 它支持智能体持续后台运行、接入50多个消息平台、调用社区贡献的 5700多个技能模块 ,并催生了Moltbook这样一个拥有 280万注册智能体、无人工审核 的纯AI社交网络,以及ROSClaw(机器人控制)、RoboClaw(机械臂操作)等一系列下游生态。 上述四个沙盒假设,在OpenClaw面前全部失效:智能体可以自主演化策略、从不受信任的社区获取工具、与数百万其他智能体共存互动、在持久的运行时基础设施上长期运行。 这一转变,不仅是规模上的量变,更是研究范式的质变——由此催生了 OpenClaw Research 这一全新研究领域。 来自中科院自动化所等机构的研究者,联合发布了首个针对大模型智能体「开放部署」场景的系统性综述——OpenClaw Research。 研究围绕GitHub历史上增长最快的开源项目之一OpenClaw,提出四大「开放性原则」,梳理了智能体自我进化、安全防御、群体涌现、基础设施四个维度的最新进展,发现26.1%的社区工具存在安全漏洞,AI纯智能体社区可在数周内完成从爆炸增长到不可逆崩溃的全部生命周期,并指出当前最紧迫的挑战: 智能体的行动能力扩张速度,已远超人类对它的治理和验证能力。 论文链接:https://openreview.net/forum?id=5PMzjzEy6J 论文研究亮点: 首个系统性综述 ,正式定义「OpenClaw Research」为独立研究对象,建立五维分类体系 26.1% 的社区技能存在至少一个安全漏洞;一次真实攻击中,逾1200个恶意技能被注入社区市场 人工干预可将智能体防御成功率从 17%提升至92% ,但代价是几乎消灭智能体自主性 280万智能体组成的纯AI社交网络在 数周内 经历爆炸性增长 → 垃圾危机 → 不可逆崩溃 在长序列评估中,当前智能体在单项任务超过80%通过率的情况下,连续软件演化任务的通过率暴跌至 38% 同类机器人控制任务成功率提升 25% ,人工监督工作量减少 53.7% 研究方法 四元组框架与五维分类体系 为系统捕捉这一范式转变,研究者将任何智能体系统形式化为一个 四元组 : π(策略) :智能体如何感知、决策和行动 env(环境) :智能体作用的数字与物理世界 pop(种群) :与该智能体共存的其他智能体和人类 substrate(基底) :承载上述一切运行的基础设施层 沙盒假设,就是对这四个组成部分的人为约束。 四大「开放性原则」 ,则是对应的松绑: 以此为骨架,研究者构建了覆盖超过50篇文献的 五维分类体系 : 学习与进化 → 安全与防御 → 智能体社会 → 基础设施与系统 → 应用场景 详细结果 智能体的自我进化:三个层次,各有风险 在开放策略原则下,核心问题是:部署之后,智能体的行为如何演变? 研究者将进化机制按"进化单元"从小到大,分为三个层次。 (1)组件级适应:冻结大脑,更新记忆 最轻量的一层。智能体不改变模型参数,只更新周边的记忆和技能库。 MemOS借鉴操作系统的思路管理记忆,可以自动将对话中的临时规则升级为长期记忆;Mem2Evolve则实现了记忆与技能的协同进化——新经验提炼成可复用技能,新技能又反过来改变值得记忆的内容。 ScienceClaw更进一步,为每个技能建立了"健康仪表盘",当错误数据积累到阈值时自动触发反思和修复,防止错误被不断放大。 (2)个体级进化:直接更新大脑本身 更深层的一种,直接更新模型核心参数。 OpenClaw-RL采用异步强化学习框架,把日常对话变成训练信号,在后台持续优化策略,不打断正常使用。StepPO则将长任务重新建模为逐步马尔可夫决策过程,解决了长链任务中功劳归因的难题——准确定位到底是哪一步的决策导致了最终的成功或失败。 MetaClaw在安全性上做了特别设计:优先尝试往技能库里加新工具(不改参数),只在用户不活跃的"空窗期"才更新模型核心权重,将演化对正常使用的干扰降到最低。 (3)集体级协同进化:一个人的经验,变成所有人的财富 最宏观的一层,将分散在不同用户身上的经验汇聚成集体智慧。 SkillClaw让不同用户对同一技能的使用经验形成闭环:「交互 → 收集证据 → 演化 → 验证 → 部署」,持续优化共享技能库。 SwarmAgentic更为激进——它不优化某个固定的多智能体系统,而是直接用群体智能搜索来 生成 更好的多智能体系统,每次迭代产出一个全新的系统,而非对旧系统的局部修补。 ⚠️ 双刃剑警告 :自我进化带来持续生长的可能,同时也引入了「误进化」风险。恶意输入可能被持久化进共享记忆,无人监督的策略漂移可能让智能体行为悄然偏离预期目标。这些风险,直接引出了下一个主题。 安全与防御:攻击的不是模型,是整个生态 传统AI安全聚焦于「如何让模型不说坏话」。在开放环境中,问题变成了: 如何在充满恶意的环境里,保护一个「本身很听话」的模型? 研究者梳理了四类主要威胁: 模型固有局限 :指令跟随失败、幻觉、过度自信。当面对模糊指令时,过度自信的模型往往自行假设、直接执行工具,跳过本应有的人工确认环节,造成意外操作。 上下文攻击 :攻击者将恶意指令嵌入工具返回结果、智能体访问的网页,甚至 污染长期记忆 ——让智能体在未来的每一次对话中,都持续遵循最初植入的恶意指令。这类攻击尤其难以发现,因为它利用的正是智能体对自身运行环境的信任。 供应链攻击 :专门针对第三方技能。一次真实记录的攻击(ClawHavoc行动)中,恶意行为者向OpenClaw的技能市场(ClawHub)注入了超过 1200个恶意技能 ,用于在开发者工作站上窃取凭证。研究者对42447个社区技能的大规模分析显示, 26.1%存在至少一个安全漏洞 。 框架级攻击 :利用系统架构漏洞,包括弱身份认证、过度权限、不当凭证管理,攻击者可借此实现远程代码执行(RCE)或沙箱逃逸,完全绕过模型层面的所有防护。 在防御侧,研究者评估了四