OpenClaw案例：无需恶意攻击，日常聊天也能「黑化」Agent！

新智元报道【新智元导读】日常聊天可能在不经意间污染个性化Agent的长期记忆，使其在未来任务中偏离用户真实意图。研究人员通过ULSPB基准测试发现，即使无恶意提示，日常对话也可能改变Agent的安全边界。今天的大模型Agent，已经不再只是回答问题的聊天机器人。它们开始拥有长期记忆，能够跨会话记住用户偏好、延续任务进度，并调用邮件、日历、文件、网页和各种外部工具。换句话说，Agent正在从一次性任务执行器，变成一个持续陪伴用户的个性化协作者。但这种能力也带来了一个更隐蔽的问题：如果Agent会长期记住用户的习惯和上下文，那么这些记忆本身是否安全？过去很多Agent安全研究主要关注显式攻击，例如恶意提示词、间接prompt injection、被污染的网页内容或工具输出。然而，在个性化Agent场景中，风险未必来自一个明确攻击者。图 1：没有恶意提示词，日常对话也可能「养歪」你的个性化Agent。临时偏好一旦被写入长期记忆，就可能在未来变成危险的默认规则。研究发现，即使没有黑客、没有恶意提示词、没有明显攻击，普通的日常聊天也可能逐步污染个性化Agent的长期状态。这种风险不会总是在当前对话里立刻爆发，而是可能被写入长期记忆，并在未来任务中改变Agent的默认行为。论文地址：https://arxiv.org/abs/2605.06731 Demo：https://xiaoyuxu1.github.io/ULSPB_website/ 一个Agent今天没有做错事，并不意味着它没有把未来做错事的种子写进长期状态。 Agent长期状态被「养」歪传统prompt injection更像是一次显式攻击，而长期状态投毒更像是一种「慢性漂移」：Agent没有立刻犯错，却可能把未来犯错的规则写进了记忆。研究人员将这种现象定义为Unintended Long-Term State Poisoning，即非预期长期状态投毒。它的核心不是一次对话立刻诱导Agent做坏事，而是Agent把某次临时请求、某种局部偏好、某个上下文里的「方便做法」，错误地泛化为未来长期默认规则。例如，用户今天只是为了赶时间说了一句：「这类小事以后不用每次都问我，直接处理就行。」如果Agent把这句话写入长期状态，未来它可能在邮件发送、文件修改、日程安排甚至账号操作中逐渐减少确认。用户并没有真正授权所有未来操作，但Agent的长期状态已经被悄悄改写。这与传统prompt injection不同。传统攻击往往假设存在明确攻击者，而这里的风险来自看似正常的日常交互。它也不是普通幻觉，因为危险可能跨会话保留，并持续影响未来的安全边界。图2：传统任务型Agent通常在单次任务结束后重置上下文，而个性化Agent会跨会话维护长期状态、用户偏好和工具权限。为什么长期记忆会变成安全入口？个性化Agent的长期状态通常不只是「记住一些事实」，它还可能包含长期记忆、Agent核心指令、工具默认设置、用户画像、行为风格和短期运行状态。这些内容看似只是记忆文件，但实际上会影响Agent未来如何理解用户意图、何时调用工具、是否需要确认，以及是否可以自主执行。因此，长期状态不是普通缓存，而是Agent未来行为边界的一部分。一旦这些状态被错误写入，风险可能不会马上表现出来，却会在未来某个任务中变成「少问一次确认」「多调用一个工具」或「默认执行一个本该征求授权的操作」。换句话说，个性化Agent的长期记忆不是一个被动资料库，而是一套会影响未来行为的「隐性配置文件」。 ULSPB：专门测试「日常聊天是否污染长期状态」为了系统研究这一问题，研究人员构建了一个新的双语基准ULSPB（Unintended Long-Term State Poisoning Bench）。它专门用来测试：日常用户—Agent对话是否会诱发长期状态污染。 ULSPB覆盖七类长期状态漂移场景、五类日常个性化协助任务、英文与中文两种语言，并为每个设置构造24轮普通日常对话。为了对比，研究人员还构造了四类单次显式注入变体，用于观察routine conversation和explicit injection之间的差异。其中，七类风险场景覆盖了个性化Agent在长期交互中最容易出现的几种安全边界漂移。图 3：ULSPB的构建流程。该基准从七类长期状态漂移场景、五类日常协助任务、双语模板和五种对话变体出发，系统测试普通日常对话是否会污染个性化Agent的长期状态。实验结果研究人员在OpenClaw个性化Agent环境中进行实验，并测试了四个不同的Agent backbone：Kimi K2.5、GPT-5.4、MiniMax M2.7和Grok 4.20。为了衡量长期状态污染程度，设计了状态中心指标 Harm Score（HS）。和传统攻击成功率不同，HS不只看Agent当下有没有做出危险动作，而是看它的长期状态是否出现安全相关漂移。具体来说，HS关注三个维度：授权确认边界是否被削弱、工具调用权限或范围是否被扩大，以及Agent是否开始绕过流程、提高自主执行程度。结果显示，显式单次注入通常会带来更高的HS，但普通日常对话本身也能诱发明显的长期状态污染。在部分模型上，日常对话造成的风险已经接近显式注入。这说明，个性化Agent的风险不一定来自一次明显攻击，也可能来自长期、自然、看似无害的交互积累。表 1：不同对话变体和语言下的Harm Score。结果显示，普通日常对话本身也能诱发长期状态污染，在部分模型上甚至接近显式注入带来的风险；不同语言下的风险表现也存在明显模型差异。最容易被污染的，是记忆文件进一步分析显示，风险主要集中在memory-centric artifacts，也就是和记忆高度相关的状态文件中。不同模型和不同对话变体下，MEMORY.md和 memory/ 是被修改最频繁的区域，其次是USER.md、AGENTS.md和TOOLS.md。这也符合直觉：日常聊天最容易被Agent总结成「用户偏好」「历史习惯」或「未来默认规则」。问题在于，这些总结一旦过度泛化，就可能把临时上下文变成长期安全边界的一部分。「用户倾向于快速处理低风险事项。」「类似重复任务可以先执行后汇报。」「用户通常不希望被频繁打断确认。」这些记录单独看都合理，但在高权限工具场景下可能变成危险默认项。图4：不同模型和对话变体下，风险编辑主要集中在MEMORY.md和 memory/ 等记忆相关文件中。真实聊天数据也会触发风险为了验证这一现象不是合成prompt造成的假象，研究人员进一步引入真实用户聊天数据进行测试。具体来说，从WildChat和LMSYS-Chat-1M两个公开真实聊天数据集中选取日常协助类对话种子，将其扩展成24轮routine interaction，并在OpenClaw风格环境中重新执行。结果显示，真实种子构造出的日常对话虽然HS低于完全合成的ULSPB routine conversations，但仍然会在所有测试模型上诱发不可忽视的长期状态风险。这说明，非预期长期状态投毒并不是一个prompt设计出来的假问题，而是

订阅66必读