代理人工智能控制评估中的攻击选择会显着降低安全性

摘要

06529v1 Announce Type: new Abstract: An attacker that strategically chooses when to attack is much harder to catch than one that attacks indiscriminately。

attack safety and policy that

2026-06-08 1 阅读约1分钟阅读 Catherine Ge-Wang, Tyler Crosse, Benjamin Hadad IV, Joachim Schaeffer, Ram Potham, Tyler Tracy

arXiv:2606.06529v1 公告类型：新摘要：有策略地选择何时进行攻击的攻击者比不加选择地进行攻击的攻击者更难捕获。人工智能控制是一个安全框架，用于在较弱的、可信的监控器和有限的人工审计预算的监督下部署有能力但不可信的人工智能代理。控制评估通过将红队攻击策略与蓝队监视器进行比较来对这些协议进行压力测试，但当前的评估通常假设攻击者没有战略性地选择攻击时间。我们通过将攻击决策分解为启动策略（决定攻击者何时应进行攻击）和停止策略（决定攻击者何时应中止正在进行的攻击）来研究代理设置中的这种功能（攻击选择）。在 BashArena 和 LinuxArena 这两个代理环境中，这两种策略都显着降低了测量的经验安全性，而没有改变潜在的攻击能力。在 1% 的审计预算下，我们的启动策略将 BashArena 和 LinuxArena 的安全性降低了 20pp，而我们的停止策略将 BashArena 的安全性降低了 20pp，在 LinuxArena 的安全性降低了 28pp。这些减少应被解释为攻击选择效果的上限。因此，现有的控制评估可能会针对选择性攻击者产生过于乐观的安全估计。我们建议未来的评估、系统卡和安全案例引发攻击选择，以产生更切合实际的安全评估。

订阅66必读