智源王仲远：世界模型是通往物理AGI之桥

2026年6月12—13日，北京中关村国际创新中心，第八届智源大会如约而至。这场大会的主题覆盖了二十余个AI行业热度最高的议题，嘉宾阵容更是涵盖灵奖得主、顶级科学家、头部AI企业创始人等众多行业大咖，线下参会人数突破万人。回顾以往的智源大会，会发现一个有趣的“预告”：在大语言模型最火热的时刻，智源就已经将世界模型标记在了AI演进的路径上：大语言模型——多模态——世界模型——物理AGI，这也使得智源研究院成为国内最早提出并开展世界模型研究的科研机构。 2023年智源大会上，杨立昆（Yann LeCun）阐述了新一代世界模型的概念；2024年，智源研究院提出的人工智能大模型技术路线预判，明确指出世界模型是下一代大模型技术；其2024年发布的悟界·Emu3和2025年发布的悟界·Emu3.5，更是全球首个原生多模态世界模型。基于这些技术沉淀，今年的智源大会上集中释放了一批优异的科研成果——有媒体称之为“悟界五连发”：原生多模态大模型悟界·Emu3.5；多模态神经科学大模型悟界·Brainμ1.0；AI驱动药物发现模型悟界·OpenComplex2.5；通用世界基座模型悟界·Physis-v0.1与以物理状态预测为核心的具身大脑悟界·RoboBrain Orca。而在当下世界模型叙事的浪潮中，悟界·Physis-v0.1与悟界·RoboBrain Orca成为了这次智源大会的绝对主角。悟界·Physis-v0.1作为全球首个通用世界基座模型，以”预测下一物理状态”为核心。它不再依赖传统像素、帧级预测方案，而是通过物理隐空间表征学习真实世界运行规律，将视频、深度RGB、3D点云、力触反馈等多模态信息统一编码为物理状态Token，让模型得以完成跨场景的通用物理规律强化学习，支持复杂物理场景的长程推理。而悟界·RoboBrain Orca作为下一个物理状态预测为核心的具身大脑，构建了"统一表征—建模—预测—交互"完整闭环，具备统一表征、因果推演、模态解码三大核心能力，可同时生成语言思考、视觉预测与动作决策，支撑具身智能机器人在物流场景、酒店服务场景等真实环境中的长期自主作业。 “智源目前认为现有的世界模型技术可分为四类。最广为人知的应该就是视频生成模型。”王仲远表示，“而目前来看，大家都在叫的世界模型都不是真正意义上的世界模型。这是一种对世界模型的误读，视频生成不等于世界模型，这是智源非常清晰的态度。” 事实上，当Sora、VLA、World Action Model都被冠以“世界模型”的名号，行业确实陷入了一场概念混战。在这个定义尚未收敛的全新战场上，智源选择先亮出自己的坐标。在王仲远看来，这是一次“正本清源”。以下为与王仲远的对话全文，略有删减：创投家：为什么智源定义世界模型是通往物理AGI的必经之路？王仲远：世界模型是面向真实物理世界的下一代基座模型，它让机器人真正"理解"物理世界，而不是只背诵训练轨迹。从"预测下一个Token"到"预测下一个物理状态"的变革，我们认为也是人工智能的一次重大范式变革，将会产生面向物理世界、物理AI的基座模型诞生的机会。世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识，同时能涵盖文本、视频、深度、力觉、感知等全模态数据，还具备主动交互能力，能够支撑各种物理世界的下游应用。通用世界基座模型，不仅需要能够实现物理的正确，还要能够有动作因果的可溯和长时间序列的一致性以及通用泛化能力。我们开发世界基座模型最核心的原因，就是认为世界模型是具身智能可行的技术解决方案。现在这个产业需要一次核心技术突破，而世界模型就是那座桥。创投家：据您的观察，当下世界模型有哪些技术路线上的分歧？王仲远：今年可以明显感觉到世界模型的热度非常高，很多不同的技术路线、不同的场景模型都冠以世界模型。简单来看，智源将现有的世界模型梳理为四种主流技术定义方式：以语言为中心、以像素为中心、以三维结构为中心，以及以视觉表征为中心。第一类是以以语言为中心的世界模型，包含大语言模型、VLM、VLA都是归类为以语言为中心。世界模型的核心就是能够让人工智能进入物理世界，感知、理解、推理，跟物理世界交互，语言也有总结很多世界的知识，只是以文字的方式表达，VLM、VLA是把其它模态、其它能力映射到语言空间，所以以语言为中心也是属于一类世界模型。第二类是以像素为中心的世界模型，这也是当前被误用最广泛的方向。OpenAI将Sora定义为"World Simulator"，本质上是在预测下一个2D像素场景，这类模型在视频生成上有广泛应用。但由于训练数据大量来自影视作品和科幻片，模型会生成不符合真实物理规律的内容——比如物体凭空消失、违背重力逻辑、流体动力学错误等。Yann LeCun也曾多次公开批评，生成像素并不等同于理解物理因果。第三类是以三维结构为中心的世界模型。李飞飞教授2024年创办World Labs，提出"空间智能"理念，其发布的Marble可以从单张图片生成可交互的持久化3D环境，本质上瞄准的是数字世界的构建，将来可能应用于元宇宙、游戏场景和数字孪生。但模型重建3D空间不等于理解世界，几何结构也不代表物理状态。第四类是以视觉表征为中心的世界模型。比如杨立昆的JEPA系列模型，预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。创投家：智源的世界模型走的是哪一条路线？王仲远：事实上，我们认为将来也许会有第五个分类，或者智源尝试的很有可能是第五个分类：就是以语言为中心的分类和以视觉表征为中心的分类的融合，也叫做潜空间表征。我们依然延续悟界·Emu3.5模型的训练思想，就是将各种文字图像视频模态全部压缩，原生统一训练，压缩在同一个语义空间，通过统一潜空间表征各种真实物理世界的状态，Decode成为Action、画面或者其它真实物理世界需要的状态。我们认为将来统一的潜空间建模不仅仅是视觉空间，而是全模态潜空间。这很有可能是世界模型的下一个可能性路径，但因为这条路径还没有完全走通，所以现在并不打算定义这个分类，期待明年和后年，智源再次分享最新成果的时候能够走通。创投家：全行业世界模型的卡点到底在哪里？王仲远：第一个卡点是物理理解。现在主流的视频生成模型能做出一分钟、两分钟的画面，画面看起来没问题，但物理规律是错的。一瓶盖着盖子的水和一瓶没盖的水掉在地上，人类大脑会立刻预判后果——没盖的水会洒出来，盖着的可能弹起来。这种物理后果的预判，现在的模型完全没有。我们不是在教模型生成视频，我们是在教它理解物理规律，然后基于这个理解去预测下一个状态。第二个卡点是时间一致性。很多模型从五秒到十秒到一分钟，看起来时间跨度在增加，但本质上还是在解决"下一帧像不像"的问题。你给一个瓶子加水，旁边放一个时钟，镜头移开再移回来，时钟走了十秒还是二十秒？模型不知道。长时间序列的一致性，不是画面连贯就够了，是瓶子里到底有多少水、时钟走了多少秒、物体的位置关系有没有改变——这些状态变量必须在时间轴上保持一致。第三个卡点，也是最大的卡点——世界模型最终要服务于行动。人类看到瓶子要掉下去，会自动伸手去扶。这个Action不是从视频里学来的，是从物理交互里学来的。我们需要

订阅66必读