智能AI
morning
重温 WorkBench:工作场所代理两年后
2026-06-15
1 阅读
Olly Styles
arXiv:2606.13715v1 公告类型:新 摘要:2024 年 3 月 WorkBench 上最好的代理 GPT-4 完成了 43% 的任务,并对其中 26% 的任务采取了无意的有害操作,例如向错误的人发送电子邮件。我们在 2026 年 6 月重新审视基准,发现迄今为止最好的代理 Claude Opus 4.8 完成了 89%,并对 2.5% 采取了意想不到的有害行动。除了边境特工绩效的显着进步之外,还有三件事值得注意。首先,功能和安全性在 WorkBench 上是相辅相成的,而不是权衡取舍,因此完成最多任务的模型也会造成最少的意外损害。其次,虽然几类错误已经完全消除,但前沿模型仍然会犯一些基本错误,这些错误偶尔会导致不可逆转的伤害,例如向错误的人发送电子邮件。第三,开放重量模型的兴起大大降低了以前只有专有模型才能达到的性能水平的成本,而前沿成本保持相对稳定。我们发布了基准测试的更新版本,其中包括数据和代码质量改进、新模型得分以及自 2024 年以来 WorkBench 上的代理进度分析。