智能AI
morning
Genesis AI 发布新模型:机器人开始挑战西红柿炒鸡蛋
2026-05-09
1 阅读
极客公园
作者| Li Yuan 编辑|靖宇 机器人终于开始学做西红柿炒鸡蛋了。 过去几年,人形机器人行业最擅长的事情,是跳舞、翻跟头、搬箱子,以及在视频里越走越像人。但普通人对机器人的期待,往往还是会回到一个很朴素的问题:它到底什么时候能帮我做家务? 这件事一直很难。 家务不是一套标准动作。鸡蛋会碎,番茄会滑,蛋液会流,刀会改变食材形状。但对机器人来说,它们是最难的一类物理世界问题。 5 月,机器人创业公司 Genesis AI 发布了自己的第一个机器人基础模型系统 GENE-26.5。视频里,机器人完成了一组很密集的灵巧操作 demo:单手打鸡蛋、双手切番茄、做奶昔、实验室移液、解魔方、整理线束、单手同时抓多个物体。 相比于过去很多让人短暂激动、随后又归于平静的机器人演示,放出的 demo 虽然不完全连贯,但是全自主操作,并且以 1 倍速展示,没有通过加速制造效果。 更重要的是,demo 里一些动作已经开始显得很像人,也碰到了一些机器人灵巧操作里的标志性难题。 比如魔方。过去机器人解魔方,通常依赖为魔方任务专门训练的系统。OpenAI 2019 年的 Shadow Hand 解魔方,就是单手灵巧操作的里程碑,但它更像一个围绕魔方打造的专门系统。Genesis AI 这次的意义不在于公布了更高成功率,而在于它声称把魔方放进了一个通用双手机器人系统里:外部求解器生成步骤,再转成语言指令,由机器人通过手眼协调和双手操作执行出来。 当然,它还远没有真的达到人类水平。 Genesis AI 方面表示,做饭 demo 中多数步骤成功率约 90% 到 95%,但最难的两个子任务——单手打蛋和用刀转移切好的番茄——拍摄时成功率只有 50% 到 60%。机器人整体速度大约达到人类的 60% 到 70%。但这个效果已经让人感到十分惊艳。 Genesis AI 本身也很年轻。公司成立于 2025 年初,已经完成 1.05 亿美元初始融资,是法国规模最大的种子轮之一,投资方包括前 Google CEO Eric Schmidt、Xavier Niel、Bpifrance 等。它正在与法国、德国、意大利的潜在客户深入谈判,目标行业包括汽车、电子、制药、物流等。 但这家公司并不是从 GENE-26.5 才开始冒出来的。 Genesis AI 背后有一条更早的技术线索:Genesis 仿真平台。这个开源项目被定义为面向 Robotics、Embodied AI 和 Physical AI 的通用物理仿真平台,核心是一套从头重建的 universal physics engine,用来模拟刚体、液体、气体、可变形物体、薄壳、颗粒材料等多种物理现象。 Genesis AI 的 CEO 周衔是 CMU Robotics Institute 机器人博士,也是生成式仿真这条研究路线的重要发起者之一。联合创始人 Théophile Gervet 则是前 Mistral AI 研究员。 某种意义上,这次 demo 选择做一道西红柿炒鸡蛋,也带着一点 CEO 作为华人科学家的生活经验和幽默感——它没有选择更标准化的西餐摆盘,而是选择了一道中国人再熟悉不过、但对机器人非常麻烦的家常菜。 这次发布真正重要的,不是机器人已经会做家务,而是它让我们看到:机器人开始认真挑战那些人类最习以为常、机器却最难学会的动作。通用机器人最难解决的,可能不是走路,而是手。 Genesis AI 在技术博客里写道: Human-level dexterity and capability is closer than it appears 。人类级灵巧操作,可能比看起来更近了。 01 采用人类操作数据训练模型 按照 Genesis AI 的说法,这个模型面向的是机器人操作任务,输入包括语言、视觉、本体感知、触觉等多模态信息,输出的是机器人动作轨迹。它使用 flow matching 来建模轨迹的联合分布,目标不是简单识别物体,而是让机器人在真实世界里完成连续操作。 这次公开的任务,除钢琴外,大多由一个共享权重模型完成,并以 1 倍速自主执行。钢琴是例外,它是单独通过仿真强化学习训练的 policy,主要用于测试控制栈的高速 tracking 能力。 数据是这套系统的核心。 Genesis AI 官方称,GENE-26.5 背后的数据引擎主要由三类来源组成: 手套数据、第一视角视频、第三人称视频 。 手套数据负责捕捉高保真手部动作和触觉信号;第一视角视频捕捉人在真实任务中的自然操作;第三人称视频则提供更大规模的物理互动覆盖。Genesis AI 还称,已经与合作伙伴收集了超过 20 万小时 跨模态数据。 虽然 Genesis AI 的团队在仿真领域有很强的能力,但在 GENE-26.5 的公开数据配方里,核心仍然是真实人类操作数据。仿真更多承担的是 closed-loop evaluation,也就是闭环评估和迭代加速的角色。 换句话说,真实数据负责让模型学习物理世界,仿真负责让模型更快被测量和迭代。 这套路线最后落到了几组 demo 上。 做饭 demo 是一个 4 分钟长时序任务,官方称其中包含 20 多个子任务。机器人要单手打蛋,双手配合切番茄,还要使用毛巾、盐磨、打蛋器、刀、铲子、平底锅等工具。 其中一个细节很能说明问题:在转移切好的番茄时,机器人不是简单把刀当成铲子,而是用刀背和砧板形成支撑,再通过双手协同把番茄转移出去。这个动作已经非常像人。它不是简单的 pick-and-place,而是涉及长时序、工具使用、易碎物体、软硬混合物体,以及接触状态不断变化的真实厨房环境。 实验室移液 demo 则更像工业和科研场景。机器人要抓住移液器,插入枪头,把液体转移到试管里,弹出枪头,拧上约 1 厘米的小管盖,打开离心机按钮,并把试管放进转子里。 线束整理则更接近制造业。Genesis AI 把线束缠绕认为是圣杯级的任务。线缆柔软、会变形、路径约束强,还需要胶带缠绕和双手协同,对传统工业机器人来说一直很难标准化。 不过,GENE-26.5 还不是 zero-shot。 周衔 在 Business Insider 采访中说,做饭 demo 里的打蛋、切番茄等技能需要几百条相关任务轨迹。一个 30 秒复杂技能,需要几小时人类数据,再加上不到半小时机器人执行数据。 它也会失败。Zhou 说,做饭 demo 中多数步骤成功率约 90% 到 95%,但单手打蛋和用刀转移切好的番茄,拍摄时成功率只有 50% 到 60%。机器人速度大约达到人类的 60% 到 70%。 GENE-26.5 不能被写成「机器人已经会做家务了」。它更像是在证明一条技术路线: 大规模人类操作数据预训练 + 少量机器人数据适配 + 仿真闭环评估 ,正在让机器人操作能力进入类似基础模型的训练范式。 这也反映了今年具身智能行业的一个明显变化。 过去,很多公司更强调模型架构、机器人本体,或者单个 demo 的任务效果。现在越来越多公司意识到,真正的瓶颈是高质量、可规模化、可迁移的操作数据。仅靠遥操作机器人采数据太贵、太慢,也覆盖不了人类真实劳动里的细节。于是,第一视角视频、训练手套、互联网视频、人类自然工作流数