基于大语言模型的 AI 智能体安全威胁与防御系统性综述——分层攻击面框架

2026-05-09 1 阅读 Seebug Paper
作者:Kexin Chu 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/pdf/2604.23338v2 摘要 智能体AI系统可跨多会话规划、保留记忆、调用外部工具并与对等智能体协同,无状态大语言模型则不具备这些能力。现有安全分类体系按攻击类型(如提示注入、越狱)划分威胁,却未说明脆弱的架构组件或威胁显现的时间尺度。本文直接解决这些结构性问题,提出分层攻击面模型(...