硬氪专访 | 智源研究院院长王仲远：VLA不会死，但世界模型是未来

作者 | 邱晓芬编辑 | 袁斯来过去几个月，“世界模型”（World Model）从学术黑话迅速膨胀成AI和机器人行业里的关键词。行业的目光转向背后是切实的焦虑。一方面，经过了过去两年的野蛮生长，具身智能暴露了当前AI在物理世界中的短板——机器人能识别物体，却不懂“推杯子会掉”；能听懂指令，却无法预判“拧瓶盖需要多大的力”。世界模型正是试图补上这个短板，让机器人学会物理世界的规律、因果。也就是说，世界模型与具身智能的关系，本质上是“大脑”与“身体”的关系。另一面，大模型在经历了大语言、视觉模型、多模态的探索之后，需要从虚拟走向真实世界的下一阶段。只是，当资本、技术专家、产业资源都倾注于此，世界模型到底如何上岸，人们没有答案。在智源研究院院长王仲远看来，眼下全球围绕世界模型的探索，正被撕扯成四条截然不同的分岔路—— 第一类是以语言为中心的世界模型，包括VLM、VLA，模型在文本空间中预测下一个词，学到的是语言描述的世界，并不能理解背后的物理后果；第二类是以像素为中心的世界模型，像Sora和Seedance等视频生成类模型，在视觉空间中学习视频或图像，学到的是像素描述的世界；第三类是以三维结构为中心的世界模型，包括3D重建以及李飞飞团队的World Labs Marble模型，不过模型重建3D空间不等于理解世界，几何结构也不代表物理状态；第四类是以视觉表征为中心的世界模型，比如杨立昆的JEPA系列模型，预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。智源研究院院长王仲远（图源/企业）作为一家非营利性科研机构，北京智源人工智能研究院同样也是目前国内世界模型领域的中坚力量。不同的是，智源研究院目前尝试的确是第五个分类——以语言和视觉为中心，融合进统一的「潜空间表征」：所有模态被压缩进同一个潜空间（latent space）仲，再由不同的"解码器”（Decoder），按需还原成不同输出形态。举个例子，这个“潜空间”就像给机器人大脑准备了一张 “万能草稿纸”，不管是看到的视频画面、听到的文字指令，统统先在“纸”上压缩成一种只有AI能懂的“密语笔记”，等需要时，机器人将会根据同一份笔记，画出接下来的场景，演出机器人的动作，或者算出物体的位置和力度。在迈向世界模型进的前几年，智源研究院在AI上的动作，就像是一部层层递进的"连续剧",一步步构建从数字世界走向物理世界的通用基座—— 从早年的"悟道"大模型，智源研究院将国内大模型叙事从0推到公共视野，再到逐渐把竞争点引导向原生多模态统一架构（包括悟界·Emu3/悟界·Emu3.5），此后，智源研究院明确提出要向“下一状态预测（NSP）”跃迁，并将这套逻辑接入悟·Physis和悟界·RoboBrain Orca的可部署系统中。在这段期间，智谱AI、月之暗面、面壁智能、银河通用等多家行业头部企业的核心创始人唐杰、杨植麟、刘知远、王鹤等，也都均在智源开展过相关领域研究。尽管世界模型热得滚烫，王仲远却对这股热潮保持着难得的冷静。他认为，世界模型大概处在深度学习的2012年前后 ——彼时，数据孤岛严重、路线未定、Benchmark还在打架，ChatGPT时刻尚未到来。在他看来，世界模型接下来的硬仗，在于几个维度的综合比拼。首先，模型不能只生成看起来真实但不符合真实物理规律的画面，比如只是生成“会飞上天的猪”，还要具备长时序一致性，不能不是几秒钟的视频，而是连续变化的状态。其次，世界模型必须进行因果逻辑推断，需要理解动作和结果之间的关系，比如，要明白盖盖子和没盖子的杯子同时掉落时，会发生什么。最后，世界模型需要作为基座模型应用到多种场景，而不是只服务某个Demo或单一任务。落到应用侧，在他看来，世界模型的价值会在两大大方向兑现，除了用于突破具身智能的卡点，服务于机器人领域之外，世界模型还可以广泛应用于严肃工业、物理仿真、科学研究等真实物理场景。 “我们期待未来世界模型能成为真正的机器人大脑，世界模型解决了现在VLA、VLM解决不了的问题，提供了泛化、长程、复杂任务和主动探索能力。但这会是一个长期过程，可能需要三年甚至更长时间。” 王仲远表示。近期，王仲远与硬氪等媒体聊了聊对世界模型的看法、以及世界模型与具身智能的衔接点，以下是采访实录（略经摘编）：世界模型四条分岔路硬氪：为什么今年智源大会重点谈“世界模型”，它和过去的大模型路线是什么关系？王仲远：我们不是突然提出世界模型这个概念。早在2024年智源大会上，我们就对人工智能的发展路径做过预判：大语言模型之后，会进入原生统一多模态，再进入物理世界与硬件结合，进一步走向微观世界的AI for Science，最终通向物理AGI。今年智源大会有两大主题，一个是世界模型，一个是智能体。智能体现在非常热，尤其是AI Coding已经进入蓬勃爆发阶段；世界模型则是我们认为人工智能从数字世界进入物理世界时必须面对的下一代基座模型问题。硬氪：当前世界模型有哪几条技术路线？王仲远：现在主流的有四条路：以语言为中心路线（如Gemini3）：能感知多模态数据，通过语言思考并描述下一状态，具备规划决策能力。以像素为中心路线（如Sora）：适合视频生成，但不懂物理因果；以三维结构为中心路线（如李飞飞World Labs的Marble）：瞄准元宇宙、游戏等数字世界仿真；以视觉表征为中心路线（如LeCun的V-JEPA系列）：预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。硬氪：智源的世界模型可以归类于什么路线里？王仲远：我们更倾向于在潜空间中学习世界知识，也就是Latent Relation，尝试把世界知识真正压缩到隐空间中，再通过不同Decoder输出Language、Action和Vision。智源选择尝试以语言为中心的分类和以视觉表征为中心的分类可能的融合，原因很简单，世界模型不仅要“看懂”物理世界，更要“理解”并“决策”。比如人类看到半杯水被打翻，大脑会自动预判“水流方向、地面材质对流速的影响”——这种能力需要将视觉信号与语言推理深度融合，而不是只生成画面。我也认同LeCun对“大语言模型局限性”的判断，但我并不认为语言模型不重要，语言是人类知识的载体，放弃语言等于放弃了人类积累的物理常识。硬氪：现在很多公司把视频生成模型称为世界模型，你怎么看？王仲远：我非常明确地认为，视频生成不等于世界模型。现在世界模型这个词被广泛使用，很大程度上是因为OpenAI发布Sora时用了“World Simulator”的表述。世界模拟器用于描述视频生成还算相对准确，但视频生成模型本身并不等同于世界模型。今年很流行的World Action Model，把视频和Action拼接起来，也不能完全代表真正意义上的世界模型。在我看来，真正的世界模型应该是面向真实物理世界的下一代基座模型。它不是单纯生成一段看起来很逼真的视频，而是要理解真实物理世界的状态变化、动作因果、长时间序列一致性和泛化能力。语言模型时代的核心是Next Token Prediction，也就是预测下一个词元。而世界

订阅66必读