基准饱和后的生活：CORE-Bench 案例研究

arXiv:2606.26158v1 公告类型：新摘要：当基准测试的准确性饱和时，它通常会被淘汰并被更具挑战性的版本所取代。我们表明，这种方法优先考虑准确性，并错过了研究智能体性能的其他六个关键维度的机会：构造有效性问题，例如捷径、分布外泛化性、效率、可靠性、模型与支架的相对重要性以及人类与智能体协作的提升。我们使用 CORE-Bench Hard（科学代码的计算可重复性基准）作为案例研究，以证明即使在准确性饱和后，沿着这些维度测量智能体也能产生对智能体性能的有意义的见解。首先，我们揭示了在 CORE-Bench Hard 中构建有效性的威胁，而这些威胁对于能力较差的代理来说是难以预测的。我们引入了改进的基准测试 CORE-Bench v1.1 和分布式任务套件 CORE-Bench OOD。其次，我们发现尽管精度饱和，CORE-Bench v1.1 对于测量效率、可靠性、模型性能和脚手架性能仍然有用。最后，我们进行了一项小规模随机实验，以衡量人机协作对现实世界计算再现性任务的提升。我们发现统计上显着的加速速度大约为两倍——可能由于五分之一的仅人类复制在完成前达到了时间限制而被低估——并描述了各种其他发现。我们的贡献共同为主流的以准确性为中心的评估范式提供了更严格的替代方案。