智能AI morning

MacArena:在在线 macOS 环境上对计算机使用代理进行基准测试

2026-06-08 1 阅读 Victor Muryn, Maksym Shamrai, Sofiia Mazepa, Yehor Khodysko
arXiv:2606.06560v1 公告类型:新 摘要:计算机使用代理(CUA)通过视觉和控制原语操作图形用户界面(GUI),其能力迅速进步,部分受到 OSWorld 等标准化在线评估基准的推动,OSWorld 既充当评估工具,又充当强化学习的培训环境。然而,macOS 在这一领域仍然服务不足:唯一现有的基准测试 macOSWorld 涵盖了任务较简单的一小部分第一方应用程序,并且在与 Apple Silicon 不兼容的 x86 虚拟机上运行。我们推出了 MacArena,这是一个涵盖 50 个应用程序的 421 个手动验证任务的基准,它结合了 OSWorld 任务的精选端口、来自 macOSWorld 的内容以及 49 个新的 macOS 原生任务,所有任务都在 Apple Silicon 上的 Apple 原生虚拟化框架上运行。我们认为,macOS 带来了超出基于 Linux 的基准测试所捕获的独特 GUI 挑战,并且我们的评估支持了这一说法:现有基准测试中强大的模型性能可以反映对任务分布的熟悉程度,而不是真正的跨平台 GUI 能力。值得注意的是,模型排名在移植任务和 macOS 原生任务之间反转,领先模型在 MacArena 子集上落后了 26% 以上,这表明 macOS 为当前的 GUI 代理带来了真正困难的环境。