智能AI
morning
Figure机器人直播100小时打擂台,3秒一个不停分拣13万包裹!
2026-05-18
1 阅读
新智元
新智元报道 【新智元导读】 Figure的人形机器人本周跑了一场没有终点的直播,原定8小时,结果连轴转了超过100小时,分拣超13万个包裹,至今没停。10小时人机对决中,人类选手拼到前臂近乎报废,仅以不到200个包裹的优势险胜。CEO放话「这是人类最后一次赢了」。具身智能的飞轮,可能刚刚碾过了一个拐点。 人形机器人第一次在真实工业任务中证明了一件事,它可以连续数十小时自主工作,中间不需要任何人类介入。 本周,机器人公司Figure开了一场直播,原计划让旗下F.03机器人连续自主分拣包裹8小时。 8小时到了,机器人没有停下来的意思,团队决定继续。 截至发稿,F.03已连续运行超100小时,分拣了超13万个包裹,仍在继续。 全程零遥操作,每一个动作都来自Figure自研神经网络Helix-02,运行在机器人本体上。 直播间涌入大量观众。 评论区的网友给四台轮班机器人取了名字,Bob、Frank、Rose、Gary,Figure团队把名牌贴上去了。 紧接着,Figure加码,发起了一场10小时人机对决。一边是F.03,一边是公司实习生Aime,规则遵守加州劳动法,人类享有餐休和带薪休息。 最终,Aime以12924个包裹险胜F.03的12732个,差距不到200个。 赛后Aime说自己左前臂「基本废了」。 Figure CEO Brett Adcock的赛后评价只有一句: 这是人类的最后一次胜利。 50小时马拉松,怎么做到的 任务本身不复杂,小包裹分拣。 F.03用头部摄像头识别条码,抓取包裹,将条码面朝下翻转放上传送带。 人类做这套动作平均3秒,F.03目前也在3秒左右,已经达到人类平均水平。 关键在于怎么维持50小时不停。 Helix-02是一个端到端神经网络,直接从摄像头的原始像素推理出动作指令,中间没有规则引擎,也没有人工干预。 当AI策略遇到超出训练分布的情况,Helix会触发自动复位,机器人回到初始状态重新来,直播中偶尔能看到这个过程。 容错机制同样值得关注。 某台机器人出现软件或硬件问题时,它会自主离开工位前往维修区,另一台自动顶上。 Figure的实验室日常就按这个逻辑运转,目标是最大化整体在线时间。Brett Adcock说目前还没出现过导致任务失败的故障,「但从概率上讲,迟早会有」。 这50小时回答了一个核心问题,机器人能不能一直动,出了问题还能自己兜住。 答案是,目前看,可以。 人机对决,2.79秒 vs 2.83秒 10小时对决的规则很简单,谁分拣的包裹多谁赢。 人类选手Aime享有加州劳动法规定的全部权利,包括用餐休息和带薪休息时间。 F.03没有休息。 Brett Adcock赛前用了一个比喻,「龟兔赛跑」,人类更快,但体力是变量。 他还补了一句,「没人告诉实习生要让着机器人」。 最终比分,Aime分拣了12924个包裹,平均2.79秒一个。 F.03分拣了12732个,平均2.83秒一个。 人类赢了,赢了不到200个。 Aime付出的代价是左前臂接近「报废」,水泡也令他的手疼痛难忍。 而F.03的状态和10小时前没有任何区别。 差距已经压缩到0.04秒。 人类的速度优势还在,但极其微弱。 而Helix-02还在迭代,这个0.04秒的窗口,随时可能关闭。 一旦单次速度追平,耐力差距会让比分彻底翻转,因为人类需要休息,机器人可以一直跑。 一个抬手动作引发的信任危机 直播过程中出了一个插曲。 F.03在分拣时被拍到一个可疑动作,左手无故触碰了自己的头部。 部分观众立刻怀疑背后有遥操作员在调整VR头显。 人形机器人行业里「遥操作掺水」的先例不少,这种质疑完全合理。 Brett Adcock很快回应,这是AI策略在执行跨身体抓取时的正常行为,机器人抬臂是为了避开工位上的金属滑槽,跟遥操作没有关系。 公众对人形机器人自主性的信任门槛依然很高。 Figure选择全程开放直播、接受实时审视,用50小时不间断的公开运行记录来回应质疑。 这种做法比任何技术报告都有说服力。 翻车集锦 当然,如此长时间的直播过程中, 还有其他的无法辩解的「翻车名场面」。 比如突然发生了诡异一幕—— 机器人开始原地发呆: 看起来像在骑着摩托车。 你的快递是怎么丢的 be like: 正常人类工作时很难出现这种情况: 面对这些翻车,网友也开始锐评: 具身智能的飞轮,开始转了 分拣包裹这个任务本身并不是大量机器人公司投入如此多的金钱和精力的主要目的。 就像2016年AlphaGo的横空出世,绝不只是为了让机器人下围棋。 这里藏着一个正反馈循环。 机器人连续运行时间越长,采集到的真实场景数据就越多。 数据越多,Helix神经网络迭代越快。 模型越强,机器人能处理的边界情况越多,连续运行时间进一步拉长。 这个循环跟大语言模型靠互联网文本做 Scaling的逻辑如出一辙,区别在于具身智能的「语料」是物理世界本身,每一秒的真实运行都在生成训练数据。 一旦飞轮转起来,进步曲线就不再是线性的。 更深一层看,三条智能线正在交汇。 语言智能(LLM)、视觉智能(多模态)、身体智能(具身)各自在加速,但它们已经开始共享底层能力。 Helix-02用端到端神经网络直接从像素到动作,跟多模态大模型的技术路径同源。 三条线在互相加速,而它们的交汇点,有一个名字,叫AGI。 大多数圈外人对具身智能的预期,还锚定在波士顿动力翻跟头的时代,觉得离实用遥遥无期。 但语言模型的进步速度之快是大家肉眼可见的,每个月都有相当大的进步。 如果具身智能复刻这条曲线,从「分拣包裹打平人类」到「开放环境自主执行复杂任务」,窗口期可能远比直觉判断的短。 Figure CEO Brett Adcock说的「这是人类最后一次赢」,放进飞轮的语境里,是对一条指数曲线的直白翻译。 而这条曲线,可能刚刚碾过了一个拐点。 参考资料: https://x.com/i/broadcasts/1aJbdbgeAaQKX https://x.com/i/broadcasts/1OxwblMvXvoJB 编辑:马可 秒追ASI ⭐ 点赞、转发、在看一键三连 ⭐ 点亮星标,锁定新智元极速推送! 文章原文