用结构替代数据,因果世界模型如何重塑具身智能大脑

2026-06-18 1 阅读 Leo张ToB杂谈
2026年正在成为具身智能的落地元年。 年初至今,一大批企业密集完成新一轮融资,产业信号再明显不过:这一波浪潮,已经从实验室冲进了商业化的前夜。然而,热钱涌入的同时,一个老问题始终没有解决—— 机器人 的“身体”越来越强,但“大脑”还远远不够聪明。 就在红杉资本AI Ascent2026大会上, 英伟达 机器人方向负责人JimFan给出了一个极具争议的论断:“VLA已死,世界动作模型WAM当立。”这句话在行业内外迅速掀起轩然大波,但争议的背后,是行业对现有技术路线已经到了忍耐极限。 没隔多久,图灵奖得主YannLeCun离开Meta后创立的AMILabs,锁定的也是世界模型及相关方向,即使公司还没拿出公开模型,但估值已经冲到了35亿美元。 从美国到中国,从学界到产业界,一场围绕机器人大脑技术路线的角逐已经全面展开。 而就在多数人涌向世界模型这条大道时,创立于2026年的新一代人工智能公司Aether AI,其创始人、加州大学圣地亚哥分校(UCSD)助理教授黄碧薇选了一条更少人走的路:构建以因果智能为核心的下一代AI范式。 黄碧薇师从多位因果学术奠基人Kun Zhang, Clark Glymour, Peter Spirtes,和Bernhard Schölkopf,在她看来,因果世界模型并不是对现有技术路线的简单改良,而是从"相关性学习"到"因果性理解"的底层范式转移。这套逻辑,正在成为具身智能“大脑”路线之争中一条独立的技术路径。 从“ 背答案 ”到理解世界 在黄碧薇的定义中,因果世界模型必须同时做到三件事:从观测数据(视频像素或文字符号)中识别出真正的因果变量,找出这些变量之间的因果结构,然后建模整个系统的因果动力学,也就是系统如何随时间演化、如何随行动而改变。 听上去很抽象,但放在机器人抓取杯子的例子中就很好理解。传统的VLA(Vision-Language-Action)模型,学习方式本质上是在“背”数据:把“这个角度、这个光线下的杯子抓取动作”记下来,下次遇到一样的场景就能复现。但光照变了、桌面高了、杯子换了个材质,模型就抓瞎,因为它从没“想清楚”过手对杯壁施加摩擦力、杯子被抬升这一整套因果链条到底是什么。 过去几年里,VLA模型一直是构建机器人大脑的主流范式。它将视觉感知、语言理解和动作生成三个模块集成在一起,通过大规模演示数据的模仿学习,让机器人能够执行各种复杂任务。 问题在于,泛化能力跟不上。VLA路线天然偏重语言部分,底层逻辑是把复杂的物理世界先翻译成语言,再靠海量动作数据做模仿学习。这么做的好处是,让机器人在固定任务上快速上手,但一旦面对陌生环境或长尾场景,短板就暴露无遗——它对物理世界缺少真正的理解。 随着机器人的硬件日趋成熟,越来越多的行业人士认识到,具身智能真正的瓶颈不在“身体”而在“大脑”,大脑的通用与泛化能力才是亟待突破的关键节点。行业迫切需要一条能让机器人真正“理解”物理世界的技术路线。 因果世界模型走的就是这条路。用黄碧薇的话来说,这套模型的核心是让机器人拥有因果认知能力——不会因为桌面高了1厘米或者碰到一个从没见过的场景就手足无措。它理解的是物体受力后运动的底层规律,物理参数变了,也能举一反三。 黄碧薇表示,相比传统模型是用暴力数据拟合来掩盖结构的缺失,因果模型是用智能的结构设计替代盲目的大数据训练。 换句话说,一旦模型厘清了背后的因果机制,环境变化通常只影响部分因果环节,不需要推倒重来。只需少量新数据就能完成更新。 在早期小规模模型上,这种因果方法已经带来25%-50% 成功率提升。 这组数字对应的产业现实是:具身智能极度“数据饥渴”。斯坦福的ALOHA等项目证明了遥操作数据收集的昂贵和低效,而一旦因果模型能够在更大规模场景中验证类似的数据效率,它对整个行业的训练成本曲线将产生直接影响。 黄碧薇表示,因果世界模型的核心逻辑在于:打造一个拥有因果认知能力的机器人,它不会因为桌面高了1厘米或遇到从未见过的场景就束手无策。它能理解物体受力后运动的底层规律,哪怕物理参数变了,也能举一反三地适应。这正是因果AI相较于VLA的核心优势——泛化能力。“我们大概只用了50条数据,就把一些之前做不好的操作任务提高了非常多。” 因果智能的另一个长处在于推理深度,大约二十年前,计算机科学家Judea Pearl通过发现和系统地研究「因果阶梯」(Ladder of Causation),在理解因果关系方面取得了突破,该框架着重说明了观察、做事和想象的独特作用。它的认知能力分三个层次:第一层是观察层面的预测,这也是当前AI普遍所处的层次;第二层是干预——“如果我做了A,结果会变成什么”;第三层是反事实推理——“如果我当初做了B而不是A,结果会不会更好”。第三层正是人脑在做决策前能在意识里预先演练、做出预判的核心机制。 落到机器人身上,就意味着它能在执行抓取之前,先在“思维”中模拟物体的运动轨迹,再选择最优操作路径。黄碧薇把这称为一种“物理直觉”。 因果如何从概念变成可训练的系统 因果世界模型的想象力,凝结在一套四层架构之中。 黄碧薇强调,区别于市面零散外挂的因果模块,以及基于现有大模型微调的改良方案,Aether AI因果世界模型的设计目标从一开始就很明确:把因果认知从理论构想一步步落地为可扩展、可训练的工程化AI范式。 “四层架构并非独立的模块,它们是彼此支撑、层层递进的技术栈,最终目标是彻底改变底层AI算法的认知逻辑。” 第一层是因果驱动的智能体系统。当前主流的智能体系统,运作逻辑本质上还是“日志记录加简单回放”——把浏览记录、工作日志和上下文信息平铺直叙地存下来,直接用于后续任务。一台机器在某个平台上学会的订票技能,换一个平台就完全失效,而且Token消耗惊人。 因果驱动的智能体系统则不同,它从海量信息中提取底层结构化知识。“真正的认知源于结构化,而非简单的数据堆砌。”黄碧薇说。结构一旦被提取出来,跨平台、跨场景时的稳定性会大幅提升。 第二层是因果世界模型。这是整套架构的核心。作为系统的认知核心,这一层负责理解物理世界的运行规律。它接收上层传来的子任务,在内部模拟“如果这样做,世界会怎样变化”,然后生成精确的任务指令,驱动上层的智能体系统。黄碧薇认为,当前的大语言模型和VLA模型,停留在非常表层的符号处理上——它们能读懂“因为……所以……”这类连接词,却无法理解这些词语背后真正的物理机制。 因果世界模型的目标,就是从像素层面贯通到物理层面,让模型真正“理解”动作的因果链。 第三层是模块化架构层,触及神经网络本身的架构设计,目标是构建一个真正模块化的神经架构——不同区域主管不同功能,区域之间既解耦又协同,共同完成复杂任务。 黄碧薇指出了,当前混合专家模型都存在一个普遍问题,就是专家模型之间功能的高度重叠。一个10个专家的MoE模型,常常只有一两个专家承担几乎所有工作。因果世界模型追求的是真正的功能性分区,各模块各司其职又相互配合,在保持效率的同时释放更强的复杂认知能力。 第四层是底层基础层,该层基础架构仍以Transformer为主。黄碧薇的解释很务实:Transformer简洁的可扩展性已经经受过千亿级参数的工程考验,没必要推倒重来。 因果AI的突破方式是在现有Tra