域伪装注入攻击逃避多代理 LLM 系统中的检测

2026-05-22 1 阅读 sbulaev
计算机科学 > 密码学与安全 arXiv:2605.22001 (cs) [提交于 2026 年 5 月 21 日] 标题:警卫中的盲点:域伪装注入攻击如何在多代理 LLM 系统中逃避检测 作者:Aaditya Pai 查看标题为警卫中的盲点:域伪装注入攻击如何逃避检测的论文的 PDF多代理 LLM 系统,作者:Aaditya Pai 查看 PDF HTML(实验) 摘要:为保护 LLM 代理而部署的注入检测器在静态、基于模板的有效负载上进行校准,这些有效负载将自身声明为覆盖指令。我们发现了一个系统盲点:当生成有效负载来模仿目标文档的领域词汇和权限结构时,即我们所说的领域伪装注入,标准检测器无法标记它们,Llama 3.1 8B 上的检测率从 93.8% 下降到 9.7%,Gemini 2.0 Flash 上的检测率从 100% 下降到 55.6%。我们将其形式化为伪装检测差距(CDG),即静态和伪装有效载荷之间注入检测率的差异。在跨越三个领域和两个模型系列的 45 个任务中,CDG 很大且具有统计显着性(对于 Llama,chi^2 = 38.03,p < 0.001;对于 Gemini,chi^2 = 17.05,p < 0.001),在任何一种情况下,反向不一致对都为零。我们还评估了 Llama Guard 3,一种生产安全分类器,它检测零伪装有效载荷(IDRcamouflage = 0.000),确认盲点从几次发射探测器延伸到专用安全分类器。我们进一步表明,多代理辩论架构将较小模型上的静态注入攻击放大高达 9.9 倍,而更强的模型则表现出集体抵抗。有针对性的检测器增强仅提供部分修复(Llama 提高了 10.2%,Gemini 提高了 78.7%),这表明该漏洞是架构性的,而不是较弱模型的偶然漏洞。我们的框架、任务库和有效负载生成器已公开发布。评论:8页,3张图,2张表格。已提交至 EMNLP 2026 ARR 周期主题:密码学与安全 (cs.CR);人工智能(cs.AI);计算和语言 (cs.CL) ACM 课程:I.2.7 引用为:arXiv:2605.22001 [cs.CR](或此版本的 arXiv:2605.22001v1 [cs.CR]) https://doi.org/10.48550/arXiv.2605.22001 重点了解更多 arXiv 发布的 DOI通过 DataCite(待注册) 提交历史记录 发件人:Aaditya Pai [ 查看电子邮件 ] [v1] Thu, 21 May 2026 04:58:11 UTC (27 KB) 全文链接:访问论文:查看标题为“守卫中的盲点:域伪装注入攻击如何逃避多代理 LLM 系统中的检测”的论文的 PDF,作者:Aaditya Pai 查看 PDF HTML (实验性)TeX 源代码视图许可证 当前浏览上下文:cs.CR < prev |下一页 > 新 |最近 | 2026-05 更改为浏览方式:cs cs.AI cs.CL 参考文献和引文 NASA ADS Google Scholar 语义学者导出 BibTeX 引文 正在加载... BibTeX 格式的引文 × 正在加载... 数据提供者: 书签 书目工具 书目和引文工具 书目浏览器 切换书目浏览器(什么是浏览器?) 关联论文 切换关联论文(什么是已连接论文? ) Litmaps 切换 Litmaps(什么是 Litmaps?) scite.ai 切换 scite 智能引文(什么是智能引文?) 与本文相关的代码、数据、媒体 代码、数据和媒体 alphaXiv 切换 alphaXiv(什么是 alphaXiv?) 代码链接 切换 CatalyzeX 论文代码查找器(什么是 CatalyzeX?) DagsHub 切换 DagsHub (什么是 DagsHub?) GotitPub 切换 Gotit.pub (什么是 GotitPub?) Huggingface 切换拥抱面 (什么是 Huggingface?) ScienceCast 切换 ScienceCast (什么是 ScienceCast?) 演示 演示 复制 切换复制 (什么是复制?) Spaces 切换拥抱面 空间 (什么是空间? ) 空间 切换 TXYZ.AI(什么是 TXYZ.AI?) 相关论文推荐器和搜索工具 链接到 Influence Flower Influence Flower(什么是 Influence Flowers?) 核心推荐器切换 CORE 推荐器(什么是 CORE?) 作者地点 机构 主题 关于 arXivLabs arXivLabs:与社区合作者的实验项目 arXivLabs 是一个允许合作者开发和共享新 arXiv 的框架直接在我们的网站上提供功能。与 arXivLabs 合作的个人和组织都接受并接受了我们开放、社区、卓越和用户数据隐私的价值观。 arXiv 致力于这些价值观,并且只与遵守这些价值观的合作伙伴合作。您有一个能为 arXiv 社区增加价值的项目想法吗?了解有关 arXivLabs 的更多信息。这篇论文的哪些作者是认可者? |禁用 MathJax(什么是 MathJax?)