RIFT-Bench：代理人工智能系统的动态红队

2026-06-24 1 阅读 Yarin Yerushalmi Levi, Roy Betser, Amit Giloni, Lidor Erez, Itay Gershon, Oren Rachmil, Sindhu Padakandla, Roman Vainshtein

arXiv:2606.23927v1 公告类型：新摘要：由大型语言模型 (LLM) 驱动的代理人工智能系统正在迅速发展为自主决策系统，暴露出传统 LLM 漏洞之外的攻击向量。现有的安全评估通常与特定的实现或领域相关，限制了异构系统之间的统一比较。为了解决这一差距，我们引入了 RIFT-Bench，这是一种用于动态红队的图表示驱动方法，可以跨不同代理架构进行统一评估。 RIFT-Bench 基于新颖的分层表示构建，分两个自动化阶段运行：发现（提取系统结构）和扫描（部署自适应对抗攻击并生成全面的评估报告）。它评估所检查的系统本身，利用跨不同攻击向量和目标的广泛的动态适应性对抗探针。我们展示了所提出的评估管道在跨越不同实现范围的 45 个代理系统中的有效性，表明该方法可以有效地推广到异构代理架构。除了系统和攻击之外，RIFT-Bench 还支持直接评估缓解策略。这些关键功能使 RIFT-Bench 成为代理 AI 系统安全评估的可扩展基础。