AgentWall：本地 AI 代理的运行时安全层

arXiv:2605.16265v1 公告类型：新摘要：自主人工智能代理的安全性越来越被认为是一个关键的开放问题。随着代理从被动的文本生成器转变为能够执行 shell 命令、修改文件、调用 API 和浏览网页的主动参与者，不安全或敌对操纵行为的后果变得立即且明显。现有的人工智能安全工作主要集中在模型对齐和输入过滤上，但这些方法并没有解决当代理的意图成为真实机器上的真实行动时发生的情况。这种差距在本地环境中尤其严重，开发人员在本地环境中针对自己的文件系统、凭据和基础设施运行代理，几乎没有运行时控制。本文介绍了 AgentWall，它是本地 AI 代理的运行时安全性和可观察性层。 AgentWall 在每个提议的代理操作到达主机环境之前对其进行拦截，根据明确的声明性策略对其进行评估，敏感操作需要人工批准，并记录完整的执行跟踪以供审核和重放。它作为策略执行 MCP 代理和本机 OpenClaw 插件实现，可通过单个安装命令在 Claude Desktop、Cursor、Windsurf、Claude Code 和 OpenClaw 上工作。我们展示了 AgentWall 的设计、架构、威胁模型和策略模型，并在 14 个基准测试中展示了 92.9% 的策略执行准确性和亚毫秒级的开销。 AgentWall 是开源的，位于 https://github.com/agentwall/Agentwall。