智能AI
morning
用于衡量前沿人工智能能力的开放世界评估
2026-05-22
1 阅读
Sayash Kapoor, Peter Kirgis, Andrew Schwartz, Stephan Rabanser, J. J. Allaire, Rishi Bommasani, Harry Coppock, Magda Dubois, Gillian K Hadfield, Andrew B. Hall, Sara Hooker, Seth Lazar, Steve Newman,
arXiv:2605.20520v1 公告类型:新 摘要:基于基准的评估对于跟踪前沿人工智能进展仍然很重要。但它既可能夸大也可能低估部署的能力,因为它优先考虑可以精确指定、自动分级、易于优化以及以低预算和短时间范围运行的任务。我们提倡一种补充性的评估,我们称之为开放世界评估:通过小样本定性分析而不是基准规模自动化来评估长期、混乱、现实世界的任务。在本文中,我们调查了最近的开放世界评估,确定了它们的优势和局限性,并介绍了 CRUX(更新人工智能预期的协作研究),这是一个定期进行此类评估的项目。首先,我们要求 AI 代理开发一个简单的 iOS 应用程序并将其发布到 Apple App Store。该代理仅通过一次可避免的手动干预就完成了任务,这表明开放世界评估可以对可能很快普及的功能提供早期预警。最后,我们提出了设计和报告开放世界评估的建议。