Genesis AI 发布新模型：机器人开始挑战西红柿炒鸡蛋

作者｜ Li Yuan 编辑｜靖宇机器人终于开始学做西红柿炒鸡蛋了。过去几年，人形机器人行业最擅长的事情，是跳舞、翻跟头、搬箱子，以及在视频里越走越像人。但普通人对机器人的期待，往往还是会回到一个很朴素的问题：它到底什么时候能帮我做家务？这件事一直很难。家务不是一套标准动作。鸡蛋会碎，番茄会滑，蛋液会流，刀会改变食材形状。但对机器人来说，它们是最难的一类物理世界问题。 5 月，机器人创业公司 Genesis AI 发布了自己的第一个机器人基础模型系统 GENE-26.5。视频里，机器人完成了一组很密集的灵巧操作 demo：单手打鸡蛋、双手切番茄、做奶昔、实验室移液、解魔方、整理线束、单手同时抓多个物体。相比于过去很多让人短暂激动、随后又归于平静的机器人演示，放出的 demo 虽然不完全连贯，但是全自主操作，并且以 1 倍速展示，没有通过加速制造效果。更重要的是，demo 里一些动作已经开始显得很像人，也碰到了一些机器人灵巧操作里的标志性难题。比如魔方。过去机器人解魔方，通常依赖为魔方任务专门训练的系统。OpenAI 2019 年的 Shadow Hand 解魔方，就是单手灵巧操作的里程碑，但它更像一个围绕魔方打造的专门系统。Genesis AI 这次的意义不在于公布了更高成功率，而在于它声称把魔方放进了一个通用双手机器人系统里：外部求解器生成步骤，再转成语言指令，由机器人通过手眼协调和双手操作执行出来。当然，它还远没有真的达到人类水平。 Genesis AI 方面表示，做饭 demo 中多数步骤成功率约 90% 到 95%，但最难的两个子任务——单手打蛋和用刀转移切好的番茄——拍摄时成功率只有 50% 到 60%。机器人整体速度大约达到人类的 60% 到 70%。但这个效果已经让人感到十分惊艳。 Genesis AI 本身也很年轻。公司成立于 2025 年初，已经完成 1.05 亿美元初始融资，是法国规模最大的种子轮之一，投资方包括前 Google CEO Eric Schmidt、Xavier Niel、Bpifrance 等。它正在与法国、德国、意大利的潜在客户深入谈判，目标行业包括汽车、电子、制药、物流等。但这家公司并不是从 GENE-26.5 才开始冒出来的。 Genesis AI 背后有一条更早的技术线索：Genesis 仿真平台。这个开源项目被定义为面向 Robotics、Embodied AI 和 Physical AI 的通用物理仿真平台，核心是一套从头重建的 universal physics engine，用来模拟刚体、液体、气体、可变形物体、薄壳、颗粒材料等多种物理现象。 Genesis AI 的 CEO 周衔是 CMU Robotics Institute 机器人博士，也是生成式仿真这条研究路线的重要发起者之一。联合创始人 Théophile Gervet 则是前 Mistral AI 研究员。某种意义上，这次 demo 选择做一道西红柿炒鸡蛋，也带着一点 CEO 作为华人科学家的生活经验和幽默感——它没有选择更标准化的西餐摆盘，而是选择了一道中国人再熟悉不过、但对机器人非常麻烦的家常菜。这次发布真正重要的，不是机器人已经会做家务，而是它让我们看到：机器人开始认真挑战那些人类最习以为常、机器却最难学会的动作。通用机器人最难解决的，可能不是走路，而是手。 Genesis AI 在技术博客里写道： Human-level dexterity and capability is closer than it appears 。人类级灵巧操作，可能比看起来更近了。 01 采用人类操作数据训练模型按照 Genesis AI 的说法，这个模型面向的是机器人操作任务，输入包括语言、视觉、本体感知、触觉等多模态信息，输出的是机器人动作轨迹。它使用 flow matching 来建模轨迹的联合分布，目标不是简单识别物体，而是让机器人在真实世界里完成连续操作。这次公开的任务，除钢琴外，大多由一个共享权重模型完成，并以 1 倍速自主执行。钢琴是例外，它是单独通过仿真强化学习训练的 policy，主要用于测试控制栈的高速 tracking 能力。数据是这套系统的核心。 Genesis AI 官方称，GENE-26.5 背后的数据引擎主要由三类来源组成：手套数据、第一视角视频、第三人称视频。手套数据负责捕捉高保真手部动作和触觉信号；第一视角视频捕捉人在真实任务中的自然操作；第三人称视频则提供更大规模的物理互动覆盖。Genesis AI 还称，已经与合作伙伴收集了超过 20 万小时跨模态数据。虽然 Genesis AI 的团队在仿真领域有很强的能力，但在 GENE-26.5 的公开数据配方里，核心仍然是真实人类操作数据。仿真更多承担的是 closed-loop evaluation，也就是闭环评估和迭代加速的角色。换句话说，真实数据负责让模型学习物理世界，仿真负责让模型更快被测量和迭代。这套路线最后落到了几组 demo 上。做饭 demo 是一个 4 分钟长时序任务，官方称其中包含 20 多个子任务。机器人要单手打蛋，双手配合切番茄，还要使用毛巾、盐磨、打蛋器、刀、铲子、平底锅等工具。其中一个细节很能说明问题：在转移切好的番茄时，机器人不是简单把刀当成铲子，而是用刀背和砧板形成支撑，再通过双手协同把番茄转移出去。这个动作已经非常像人。它不是简单的 pick-and-place，而是涉及长时序、工具使用、易碎物体、软硬混合物体，以及接触状态不断变化的真实厨房环境。实验室移液 demo 则更像工业和科研场景。机器人要抓住移液器，插入枪头，把液体转移到试管里，弹出枪头，拧上约 1 厘米的小管盖，打开离心机按钮，并把试管放进转子里。线束整理则更接近制造业。Genesis AI 把线束缠绕认为是圣杯级的任务。线缆柔软、会变形、路径约束强，还需要胶带缠绕和双手协同，对传统工业机器人来说一直很难标准化。不过，GENE-26.5 还不是 zero-shot。周衔在 Business Insider 采访中说，做饭 demo 里的打蛋、切番茄等技能需要几百条相关任务轨迹。一个 30 秒复杂技能，需要几小时人类数据，再加上不到半小时机器人执行数据。它也会失败。Zhou 说，做饭 demo 中多数步骤成功率约 90% 到 95%，但单手打蛋和用刀转移切好的番茄，拍摄时成功率只有 50% 到 60%。机器人速度大约达到人类的 60% 到 70%。 GENE-26.5 不能被写成「机器人已经会做家务了」。它更像是在证明一条技术路线：大规模人类操作数据预训练 + 少量机器人数据适配 + 仿真闭环评估，正在让机器人操作能力进入类似基础模型的训练范式。这也反映了今年具身智能行业的一个明显变化。过去，很多公司更强调模型架构、机器人本体，或者单个 demo 的任务效果。现在越来越多公司意识到，真正的瓶颈是高质量、可规模化、可迁移的操作数据。仅靠遥操作机器人采数据太贵、太慢，也覆盖不了人类真实劳动里的细节。于是，第一视角视频、训练手套、互联网视频、人类自然工作流数