用于衡量前沿人工智能能力的开放世界评估

摘要

20520v1 Announce Type: new Abstract: Benchmark-based evaluation remains important for tracking frontier AI progress。

and for evaluations world with

2026-05-22 1 阅读约1分钟阅读 Sayash Kapoor, Peter Kirgis, Andrew Schwartz, Stephan Rabanser, J. J. Allaire, Rishi Bommasani, Harry Coppock, Magda Dubois, Gillian K Hadfield, Andrew B. Hall, Sara Hooker, Seth Lazar, Steve Newman,

arXiv:2605.20520v1 公告类型：新摘要：基于基准的评估对于跟踪前沿人工智能进展仍然很重要。但它既可能夸大也可能低估部署的能力，因为它优先考虑可以精确指定、自动分级、易于优化以及以低预算和短时间范围运行的任务。我们提倡一种补充性的评估，我们称之为开放世界评估：通过小样本定性分析而不是基准规模自动化来评估长期、混乱、现实世界的任务。在本文中，我们调查了最近的开放世界评估，确定了它们的优势和局限性，并介绍了 CRUX（更新人工智能预期的协作研究），这是一个定期进行此类评估的项目。首先，我们要求 AI 代理开发一个简单的 iOS 应用程序并将其发布到 Apple App Store。该代理仅通过一次可避免的手动干预就完成了任务，这表明开放世界评估可以对可能很快普及的功能提供早期预警。最后，我们提出了设计和报告开放世界评估的建议。

订阅66必读