智能AI
morning
AgentAtlas:LLM 代理的超越结果排行榜
2026-05-22
1 阅读
Parsa Mazaheri, Kasra Mazaheri
arXiv:2605.20530v1 公告类型:新 摘要:大型语言模型代理现在作用于代码库、浏览器、操作系统、日历、文件和工具生态系统,但用于评估它们的基准是分散的:每个基准都强调不同的测量单位(最终任务成功、工具调用有效性、重复传递一致性、轨迹安全性或攻击鲁棒性)。 2024-2025 年的一系列工作已集中在以下诊断上:单一精度列不再是可部署代理的正确比较单位。 AgentAtlas 通过四个组件扩展了这一工作线:(i) 六状态控制决策分类法(行动/询问/拒绝/停止/确认/恢复); (ii) 具有两个正交分层标签的九类轨迹故障分类法(primary_error_source、impact); (iii) 分类法感知与分类法盲的方法,用于衡量模型的明显能力有多少来自于提示中的监督; (iv) 基准覆盖率审计,根据六个行为轴映射十五个代理基准。为了演示该方法,我们在两种提示模式下运行一个小型固定八模型集(1,342 个生成的项目,四个封闭边界和四个开放权重)。删除显式标签菜单会使每个模型的轨迹精度下降 14-40 pp,无论系列如何,都将达到 0.54-0.62 的严格水平,而且没有任何一个模型能够在控制精度、轨迹诊断和工具上下文实用程序保留这三个方面都取得胜利。我们将综合运行视为测量协议演示,而不是基准发布。