AgentAtlas：LLM 代理的超越结果排行榜

摘要

arXiv:2605.20530v1 Announce Type: new Abstract: Large language model agents now act on codebases, browsers, operating systems, calendars, files, and tool ecosystems, but the benchmarks used to evaluat

the model and trajectory taxonomy

2026-05-22 1 阅读约1分钟阅读 Parsa Mazaheri, Kasra Mazaheri

arXiv:2605.20530v1 公告类型：新摘要：大型语言模型代理现在作用于代码库、浏览器、操作系统、日历、文件和工具生态系统，但用于评估它们的基准是分散的：每个基准都强调不同的测量单位（最终任务成功、工具调用有效性、重复传递一致性、轨迹安全性或攻击鲁棒性）。 2024-2025 年的一系列工作已集中在以下诊断上：单一精度列不再是可部署代理的正确比较单位。 AgentAtlas 通过四个组件扩展了这一工作线：(i) 六状态控制决策分类法（行动/询问/拒绝/停止/确认/恢复）； (ii) 具有两个正交分层标签的九类轨迹故障分类法（primary_error_source、impact）； (iii) 分类法感知与分类法盲的方法，用于衡量模型的明显能力有多少来自于提示中的监督； (iv) 基准覆盖率审计，根据六个行为轴映射十五个代理基准。为了演示该方法，我们在两种提示模式下运行一个小型固定八模型集（1,342 个生成的项目，四个封闭边界和四个开放权重）。删除显式标签菜单会使每个模型的轨迹精度下降 14-40 pp，无论系列如何，都将达到 0.54-0.62 的严格水平，而且没有任何一个模型能够在控制精度、轨迹诊断和工具上下文实用程序保留这三个方面都取得胜利。我们将综合运行视为测量协议演示，而不是基准发布。

订阅66必读