智源大会 | 天工AI重新定义世界模型，公布Matrix-Game 3.5 最新技术突破

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 智源大会 | 天工AI重新定义世界模型，公布Matrix-Game 3.5 最新技术突破量子位的朋友们 2026-06-15 11:24:30 来源：量子位昆仑万维将持续深耕，步履不停 6月12日-13日，第8届智源大会在北京举行。本届大会吸引了2位图灵奖得主、8位院士、30位30岁以下青年科学家、40余位AI企业CEO及创始人等参会，围绕Agent、世界模型、具身智能、AI自进化与AI安全等前沿议题展开讨论。其中世界模型成为本届大会最受关注的议题之一，来自具身智能、机器人控制、游戏引擎、物理AI基础设施等不同领域的研究者提出了各自的技术路线，共同探讨世界模型相关深度议题。昆仑万维旗下Skywork首席科学家刘扬受邀出席6月13日的世界模型分论坛，发表演讲以及参与圆桌讨论。在演讲环节，他以《Matrix-Game：长时序记忆下的实时流式交互式世界模型》为主题，系统阐述了Matrix-Game的研发历程、最新进展，基于对世界模型的深度思考，他提出了“下一帧状态生成和动作生成应该进行联合训练”的全新框架。此外，他首次公布了 Matrix-Game 3.5 的核心技术突破。Matrix-Game 3.5 计划于2026年7月正式发布，团队也将在近期发布包含更多技术细节的报告。 1. 定义世界模型：从“预测下一帧”到“状态-动作联合生成” 当前，全球世界模型赛道呈现技术路线快速分化的格局。尽管路线各异，一个共识正在浮现：世界模型已从纯学术命题演进为机器人、仿真、游戏与通用AI底层能力的竞争。在国内，昆仑万维的 Matrix-Game 是该赛道中起步最早、系统化程度最高的力量之一。从技术落地来看，全球世界模型赛道的主流技术路线已逐渐清晰：先进行大规模双向DiT预训练，再通过Self-Forcing或Causal Forcing蒸馏为因果模型，配合KVCache实现流式推理，最终达到25FPS的实时交互水平，同时辅以记忆注入机制解决长时程一致性问题。昆仑万维的Matrix-Game 2.0正是这一技术范式中首个开源的实现方案，而Matrix-Game 3.0则首次系统性地将记忆问题纳入开源解决方案。目前，Skywork的Matrix团队正全力推进从3.0到3.5的升级迭代，核心目标在于攻克世界模型长时序生成中的记忆瓶颈，并实现5B参数模型在720P分辨率下的实时生成能力。基于长期的研究，刘扬指出，“世界模型”一词在业内的定义混乱程度远超普遍认知——视频生成、3D表征、交互式模拟器等不同方向的研究者所指并非同一对象。他在演讲中提出了自己的理解框架：理解当下状态：这超越纯视觉信息。一个真正的世界模型需要理解物体级别的物理属性——墙是否可穿越、水的温度等。纯视觉信号天然无法覆盖这些信息。预测下一个状态：在充分理解当前状态的基础上，模型需对世界的后续演化做出推断。将预测结果渲染呈现：使开发者和用户能够观测“下一帧”。然而，团队的思考并未停留于此。Matrix Game的实际训练揭示了一个更关键的结论：状态的预测与动作的生成应当联合训练，而非分而治之。当我们把下一帧状态的生成和动作的生成进行联合训练，发现无论对状态理解还是状态和动作的预测，都会带来显著的提升。这意味着他眼中更完整的世界模型，是对状态与动作的联合理解与联合生成——而非单向的观测世界、预测下一帧。根据具体应用场景，模型可以侧重输出状态（用于交互模拟器）或侧重输出动作（用于机器人控制）。这一统一框架是Skywork团队对世界模型认知的核心升级。 2. Matrix-Game 1.0-3.5：以游戏为切口，通向通用交互世界自研发之初，团队选择游戏作为世界模型训练与交互验证的切入点。他认为，游戏天然是世界模型的完美载体。给定视觉输入和当前状态，接受玩家动作指令，输出下一帧——这一循环与世界模型的核心任务同构。同时，游戏引擎能够在可控条件下生成高质量数据，并精确记录视觉画面与对应动作，这是自然界视频数据无法替代的。自2024年下半年启动研发以来，Matrix Game在不到两年内完成了多次关键跨越： 2025年3月，发布Matrix-Game 1.0：成为最早公开的可交互世界模型之一。 2025年8月，发布Matrix-Game 2.0：业界首个实现分钟级实时长序列交互的世界模型，单卡B100、720P@25FPS，从概念验证走向工业可部署，业界首个开源方案。Matrix-Game 2.0获得了顶级学术团队的高度认可，DiT（Diffusion Transformer）作者、纽约大学助理教授谢赛宁团队基于Matrix-Game 2.0开源底座，发布了全球首个多人视频世界模型Solaris，充分彰显了Matrix-Game 2.0在基础模型领域的技术影响力与开源生态价值。 2026年3月，发布Matrix-Game 3.0：5B参数蒸馏模型实现720P@40FPS实时生成，补齐了世界模型公认的三大短板——记忆（记不住）、长时程（跑不久）、实时性（跑不动），跻身全球第一梯队。 Matrix Game-3.5：本次演讲首次系统披露3.5的核心技术突破。该版本的最大变化是从游戏场景向真实场景全面扩展，支持多风格动态切换与指令控制，并引入NPC交互能力。同时，本版本全新升级了长时记忆能力。他用一句话概括了对未来的判断： “世界模型不应只是一个仿真器，而应是一个联合训练的统一模型——对状态与动作同时理解、同时生成，根据应用场景自由组合。” 3. 突破世界模型的数据瓶颈：构建无限数据引擎刘扬在演讲中强调，数据是决定世界模型能力的下限。团队在实践中发现，传统数据采集方式存在三大痛点：人工采集成本高昂、实机采集耗时耗力、效率极低，无法满足大模型规模化需求。而世界模型需要全新的数据生成方式 —— 能够无限生成带物理因果关系的数据，实现全自动、高效率、低成本。为此，Skywork团队构建了三条自动化数据生产管线，输出 Video + Pose + Action + Language 的高质量世界模型训练数据。截至目前，数据引擎已产出： 500万+ 高质量视频切片 1万+ 有效训练小时数 1200+ 覆盖游戏场景数这一无限数据引擎的具体实现包括三个层面：第一，基于Unreal Engine 5的自主探索管线。团队在UE5中搭建常见游戏场景，部署RL Agent进行自由探索，在探索过程中实现毫秒级同步采集，完整记录视觉画面、动作状态及一系列相关语义信息。第二，跨游戏自动化控制与探索管线。覆盖《GTA V》《荒野大镖客2》《赛博朋克2077》等主流3A游戏，实现跨游戏的自动控制、自动探索、自动录制与自动标注。第三，开放平台视频自动挖掘管线。从开放平台自动获取游戏视频，通过VLM（视觉大模型）评分筛选高质量片段，自动完成镜头切分、过滤与结构化标注。 4. Matrix-Game 实践中的关键挑战与技术

订阅66必读