机器人梦想打破游戏吗？使用 BenchJack 系统审核 AI 代理基准

arXiv:2605.12673v1 公告类型：新摘要：智能体基准测试已成为前沿人工智能能力的事实上的衡量标准，指导模型选择、投资和部署。然而，奖励黑客（即代理在不执行预期任务的情况下最大化分数）会自发地出现在前沿模型中，而不会出现过度拟合。我们认为基准测试必须在设计上是安全的。从过去的奖励黑客事件中，我们得出了八种重复出现的缺陷模式的分类法，并将它们编译到基准设计者的代理评估清单中。我们将这些见解浓缩到 BenchJack 中，这是一个自动化的红队系统，可驱动编码代理审核基准并以洞察力的方式识别可能的奖励黑客攻击。此外，我们将 BenchJack 扩展到迭代生成对抗管道，该管道可以发现新缺陷并迭代修补它们，以提高基准测试的稳健性。我们将 BenchJack 应用到 10 个流行的代理基准测试中，涵盖软件工程、网络导航、桌面计算和终端操作。 BenchJack 综合了奖励黑客攻击，这些攻击在大多数基准测试中获得近乎完美的分数，而无需解决单个任务，从而暴露了 8 个类别中的 219 个明显缺陷。此外，BenchJack 的扩展管道将四个基准测试中的可破解任务比率从接近 100% 降低到 10% 以下，且没有致命的设计缺陷，在三个迭代内完全修补了 WebArena 和 OSWorld。我们的结果表明，评估流程并未内化对抗性思维，主动审计可以帮助缩小快节奏基准测试领域的安全漏洞。