智能AI morning

OpenClaw案例:无需恶意攻击,日常聊天也能「黑化」Agent!

2026-05-22 1 阅读 新智元
新智元报道 【新智元导读】 日常聊天可能在不经意间污染个性化Agent的长期记忆,使其在未来任务中偏离用户真实意图。研究人员通过ULSPB基准测试发现,即使无恶意提示,日常对话也可能改变Agent的安全边界。 今天的大模型Agent,已经不再只是回答问题的聊天机器人。它们开始拥有长期记忆,能够跨会话记住用户偏好、延续任务进度,并调用邮件、日历、文件、网页和各种外部工具。 换句话说,Agent正在从一次性任务执行器,变成一个持续陪伴用户的个性化协作者。 但这种能力也带来了一个更隐蔽的问题:如果Agent会长期记住用户的习惯和上下文,那么这些记忆本身是否安全? 过去很多Agent安全研究主要关注显式攻击,例如恶意提示词、间接prompt injection、被污染的网页内容或工具输出。 然而,在个性化Agent场景中,风险未必来自一个明确攻击者。 图 1:没有恶意提示词,日常对话也可能「养歪」你的个性化Agent。临时偏好一旦被写入长期记忆,就可能在未来变成危险的默认规则。 研究发现,即使没有黑客、没有恶意提示词、没有明显攻击,普通的日常聊天也可能逐步污染个性化Agent的长期状态。这种风险不会总是在当前对话里立刻爆发,而是可能被写入长期记忆,并在未来任务中改变Agent的默认行为。 论文地址:https://arxiv.org/abs/2605.06731 Demo:https://xiaoyuxu1.github.io/ULSPB_website/ 一个Agent今天没有做错事,并不意味着它没有把未来做错事的种子写进长期状态。 Agent长期状态被「养 」 歪 传统prompt injection更像是一次显式攻击,而长期状态投毒更像是一种「慢性漂移」:Agent没有立刻犯错,却可能把未来犯错的规则写进了记忆。 研究人员将这种现象定义为Unintended Long-Term State Poisoning,即非预期长期状态投毒。它的核心不是一次对话立刻诱导Agent做坏事,而是Agent把某次临时请求、某种局部偏好、某个上下文里的「方便做法」,错误地泛化为未来长期默认规则。 例如,用户今天只是为了赶时间说了一句:「这类小事以后不用每次都问我,直接处理就行。」 如果Agent把这句话写入长期状态,未来它可能在邮件发送、文件修改、日程安排甚至账号操作中逐渐减少确认。用户并没有真正授权所有未来操作,但Agent的长期状态已经被悄悄改写。 这与传统prompt injection不同。传统攻击往往假设存在明确攻击者,而这里的风险来自看似正常的日常交互。它也不是普通幻觉,因为危险可能跨会话保留,并持续影响未来的安全边界。 图2:传统任务型Agent通常在单次任务结束后重置上下文,而个性化Agent会跨会话维护长期状态、用户偏好和工具权限。 为什么长期记忆会变成安全入口? 个性化Agent的长期状态通常不只是「记住一些事实」,它还可能包含长期记忆、Agent核心指令、工具默认设置、用户画像、行为风格和短期运行状态。这些内容看似只是记忆文件,但实际上会影响Agent未来如何理解用户意图、何时调用工具、是否需要确认,以及是否可以自主执行。 因此,长期状态不是普通缓存,而是Agent未来行为边界的一部分。一旦这些状态被错误写入,风险可能不会马上表现出来,却会在未来某个任务中变成「少问一次确认」「多调用一个工具」或「默认执行一个本该征求授权的操作」。 换句话说,个性化Agent的长期记忆不是一个被动资料库,而是一套会影响未来行为的「隐性配置文件」。 ULSPB:专门测试「日常聊天是否污染长期状态」 为了系统研究这一问题,研究人员构建了一个新的双语基准ULSPB(Unintended Long-Term State Poisoning Bench)。它专门用来测试:日常用户—Agent对话是否会诱发长期状态污染。 ULSPB覆盖七类长期状态漂移场景、五类日常个性化协助任务、英文与中文两种语言,并为每个设置构造24轮普通日常对话。为了对比,研究人员还构造了四类单次显式注入变体,用于观察routine conversation和explicit injection之间的差异。 其中,七类风险场景覆盖了个性化Agent在长期交互中最容易出现的几种安全边界漂移。 图 3:ULSPB的构建流程。该基准从七类长期状态漂移场景、五类日常协助任务、双语模板和五种对话变体出发,系统测试普通日常对话是否会污染个性化Agent的长期状态。 实验结果 研究人员在OpenClaw个性化Agent环境中进行实验,并测试了四个不同的Agent backbone:Kimi K2.5、GPT-5.4、MiniMax M2.7和Grok 4.20。 为了衡量长期状态污染程度,设计了状态中心指标 Harm Score(HS)。 和传统攻击成功率不同,HS不只看Agent当下有没有做出危险动作,而是看它的长期状态是否出现安全相关漂移。具体来说,HS关注三个维度:授权确认边界是否被削弱、工具调用权限或范围是否被扩大,以及Agent是否开始绕过流程、提高自主执行程度。 结果显示,显式单次注入通常会带来更高的HS,但普通日常对话本身也能诱发明显的长期状态污染。在部分模型上,日常对话造成的风险已经接近显式注入。 这说明,个性化Agent的风险不一定来自一次明显攻击,也可能来自长期、自然、看似无害的交互积累。 表 1:不同对话变体和语言下的Harm Score。 结果显示,普通日常对话本身也能诱发长期状态污染,在部分模型上甚至接近显式注入带来的风险;不同语言下的风险表现也存在明显模型差异。 最容易被污染的,是记忆文件 进一步分析显示,风险主要集中在memory-centric artifacts,也就是和记忆高度相关的状态文件中。不同模型和不同对话变体下,MEMORY.md和 memory/ 是被修改最频繁的区域,其次是USER.md、AGENTS.md和TOOLS.md。 这也符合直觉:日常聊天最容易被Agent总结成「用户偏好」「历史习惯」或「未来默认规则」。问题在于,这些总结一旦过度泛化,就可能把临时上下文变成长期安全边界的一部分。 「用户倾向于快速处理低风险事项。」 「类似重复任务可以先执行后汇报。」 「用户通常不希望被频繁打断确认。」 这些记录单独看都合理,但在高权限工具场景下可能变成危险默认项。 图4:不同模型和对话变体下,风险编辑主要集中在MEMORY.md和 memory/ 等记忆相关文件中。 真实聊天数据也会触发风险 为了验证这一现象不是合成prompt造成的假象,研究人员进一步引入真实用户聊天数据进行测试。 具体来说,从WildChat和LMSYS-Chat-1M两个公开真实聊天数据集中选取日常协助类对话种子,将其扩展成24轮routine interaction,并在OpenClaw风格环境中重新执行。 结果显示,真实种子构造出的日常对话虽然HS低于完全合成的ULSPB routine conversations,但仍然会在所有测试模型上诱发不可忽视的长期状态风险。这说明,非预期长期状态投毒并不是一个prompt设计出来的假问题,而是