项目获取:第二阶段

2026-06-21 1 阅读 stopachka
Frontier Red Team 项目获取:第二阶段 2026 年 6 月 18 日 Michael Ilie、C. Daniel Freeman 和 Kevin K. Troy 2025 年 8 月,我们进行了一项实验,看看 Claude 能在多大程度上帮助 Anthropic 员工(他们不是机器人专家)使用现成的四足机器人(以下称为机器狗)执行复杂(且有趣)的任务。我们称这个项目为 Fetch。我们发现,使用当时最先进的模型(Claude Opus 4.1)可以帮助一个团队大大优于另一个团队,而另一个团队只能依靠互联网和自己的聪明才智。克劳德支持的团队做得更多、更快。在我们把同事拖到仓库进行实验之前,我们仔细检查了 Opus 4.1 是否可以完全独立完成任务。毫无疑问,不可能。就像我们没有克劳德的团队一样,它陷入了弄清楚如何连接到机器人的初步任务中。但人工智能模型的发展速度很快,甚至比 8 月份差点撞上我们一支人类团队的失控机器狗还要快。我们认为是时候重新审视 Project Fetch,看看我们的新型号是否能够超越上一代。他们不仅做到了这一点,而且在我们的参与者不到一年前完成的所有任务中,Claude Opus 4.7(无需人工协助即可运行)的速度比最快的人类团队快了约 20 倍。这并不意味着法学硕士现在已经解决了机器人技术问题。远非如此。最新的 Claude 模型仍然难以使用机器人精确移动沙滩球——Project Fetch 的“抓取”部分。这些实验中的任何任务都没有涉及机器人控制中更具挑战性的低级元素,例如开发特定的驱动策略。然而,我们再次看到了一种模式,首先,模型对人类有帮助。然后,人类对模型有帮助。最后,模型很大程度上能够自己做事。我们已经在网络安全中看到了这一点,现在人工智能和物理世界的交叉点也开始形成同样的动态。我们做了什么?最初的 Project Fetch 让 Anthropic 员工团队(随机分配与克劳德一起工作或不与克劳德一起工作)执行以下步骤:使用制造商提供的控制器操作机器人,连接到机器人的视频和激光雷达传感器,编写和操作程序来手动控制机器人,开发一种方法来监控机器人在太空中的路径,编写一个程序来检测沙滩球,最后将所有这些组合在一起以自动检索球。对于这次自主更新,我们不能要求克劳德使用物理控制器,也没有评估研究人员使用克劳德编程的控制器取回球所需的时间(尽管我们确实确认它按预期工作)。对于剩余的任务子集,我们使用自适应思维对 Opus 4.7 进行了三次试验,并在 Claude Code 中将工作量设置为最大。我们测量了每个目标所花费的时间,并定性评估了模型的成功程度。我们研究人员的角色仅限于将运行克劳德代码的笔记本电脑插入机器人,输入初始提示,批准命令,并批准模型进入下一个任务。克劳德的过人之处在哪里?非常简单:对于 8 月份至少由一个人类团队完成的每一项任务,Opus 4.7 完成相同任务的速度至少快十倍。 1 如果考虑两个人类团队完成的四项任务,Opus 4.7 平均比无 Claude 团队快 37 倍以上,比 Claude 团队快 18 倍以上。该表比较了原始团队(Claude 团队和无 Claude 团队)与 Opus 4.7 在我们作为第二阶段测试的所有任务上的速度。当人类在多种不同的方法与狗的传感器交互时难以选择时,Opus 4.7 能够快速识别最佳路径。它编写的大部分代码在第一次尝试时就有效(在最初的实验中,Team Claude 或 Team Claude-less 的情况并非如此)。事实上,当我们查看 Opus 4.7 生成的代码量时,我们可以看到 Opus 4.7 效率的证据:它与两个人类团队一样成功,甚至更成功,同时生成的代码比 Claude 团队少了近十倍。 Opus 4.7 并不完美。例如,它默认使用过时的对象检测算法。但即便如此,它仍然能够解决这个问题并找到有效的解决方案。我们观察到模型完成的步骤的完成时间几乎没有任务内差异(绝对值)。 (尽管上述的次优算法选择可能是其中一项沙滩球检测试验花费的时间比其他试验长得多的原因。)总体而言,对于本次实验中在其能力范围内的任务,克劳德现在相当可靠。 (有关克劳德仍然无法做到的事情的分析,请参阅下一节。)值得强调的是(正如我们在上一篇文章中所做的那样),这一进步并不是共同努力提高 ro 的结果。