游戏
morning
「逆矩阵」完成超亿美元融资,创始人:通用世界基座模型窗口期已压至18个月
2026-06-17
1 阅读
36kr
文|王毓婵 编辑|张雨忻 2026 年以来,一级市场对世界模型的抢筹进入白热化阶段。资金不再像早期那样“广撒网”,而是高度向头部玩家集中。这其中,逆矩阵科技(Physis)就接连完成了多轮融资。 36氪智能涌现独家据悉,世界模型公司逆矩阵科技已完成超亿美元种子++轮融资;此前的 3 月,刚完成了超千万美元首轮融资。本轮由经纬创投、五源资本、光合创投等机构共同参与,并获蚂蚁集团战略投资,老股东高瓴创投、燕缘创投持续加注。 在本轮融资落定前后,逆矩阵发布了通用世界基座模型Physis-v0.1,并将其概括为“One For All”的通用物理世界应用。该模型主打物理正确、长程一致、动作因果、通用泛化四项能力,一次预训练即可服务具身智能、工业仿真、游戏物理、科学预测等多类场景。 逆矩阵计划于 2026 年底发布旗舰模型,过程中将放出开源切片和技术报告。本轮资金将主要用于通用世界基座模型的预训练研发、规模化训练体系建设。 团队由北大青年学者陈博远、吉嘉铭联合创立,一半是青年学者(含奥赛金牌、省市状元与多位顶会论文作者),一半是来自一线科技企业的资深工程人才。他们组成了一个 AI-native 的扁平化团队,没有层级汇报与季度指标,靠技术判断而非行政命令对齐方向;信奉自由探索、第一性原理与长期主义。 智能涌现在新一轮融资敲定之际,独家采访了陈博远。他回答了关于组织架构、融资节奏、技术路线、行业判断和场景落地等多个问题。 “行业内目前的共识是,18~24个月内,世界基座模型能力会出现标志性的阶跃,36个月内,能在多个真实场景完成实际应用落地。”陈博远说。“这与语言模型从 GPT-3 到 ChatGPT 的路径高度吻合。” 以下是智能涌现与陈博远的对话实录: 通用世界基座模型的窗口期正在从三年压缩到十八个月 Q1:恭喜逆矩阵完成新一轮超亿美元量级的融资。距离上一轮融资仅仅过去不到两个月,为���么能保持这么快的融资节奏? 陈博远:这背后反映了投资人对 AI 发展第三次范式跃迁的押注。 过去十年,AI 经历了语言模型(预测下一个词)和视觉生成模型(预测下一帧)两次跃迁,分别催生了平台级公司。现在的第三次跃迁是由 AI 从虚拟世界走向物理世界带来的,核心是面向物理空间“预测下一个物理状态”。 这套“给定当前状态与动作,预测世界如何演化”的范式,曾在 AlphaGo、机器人控制等子问题中出现过,如今正在收敛为同一套解法框架。但物理世界与虚拟世界的根本区别在于,物理世界是“部分可观测”的,模型不能只停留在“看到什么做什么”,必须理解底层的物理约束。 投资人愿意快速跟进并追加投资,主要基于两点判断: 一是“底层统一建模物理规律,上层按需适配不同场景”的基座模型路径正在成为行业共识; 二是通用世界基座模型的窗口期正在从三年压缩到十八个月,做通用预训练的团队会拥有更大的空间。一个领先的通用基座具有数据scaling和算法有效性,会构成难以被追赶的壁垒。 Q2:在融资过程中,投资人问得最多的问题是什么?大家对技术走向落地的时间周期有怎样的共识? 陈博远:问得最密集的是:“凭什么相信通用世界基座模型能做成?”以及“团队是否在坚定地做基座模型?” 在我们看来,能不能称之为基座模型,关键在于是否真正从物理预测这个目标出发去构建。于是我们从零开始解决物理预测目标,自研底层架构,并在训练分布外看到了合理的物理推演曙光。 逆矩阵的内部实验表明,随着数据和参数规模增加,状态预测误差持续下降,呈现出类似大语言模型的指数级 Scaling 潜力,而未出现垂类模型的饱和拐点。 关于落地周期,共识是 18~24个月内基座模型能力会出现标志性的阶跃,并在真实需求上取得高分;36个月内能在多个真实场景完成实际应用落地。这与语言模型从 GPT-3 到 ChatGPT 的路径高度吻合。届时,各个垂类场景将直接成为基座模型 API 的调用者,形成类似 AWS 与 SaaS 的关系。 Q3:为什么没有在当下引入产业基金投资? 陈博远:现阶段我们最需要的是把"弹药"集中到一个方向,去攻克通用世界基座模型的研发与算力门槛。这是一件需要长期、专注投入的事。 我们现在不急于做商业化,这是我们在这个阶段做出的价值判断。对一家做通用基座的公司来说,过早把模型绑定到某个垂直场景去变现,看上去摘到了眼前的果实,实际上是给自己画了一道边界:一旦围绕单一场景去采数据、调模型、做交付,就会逐渐退化成"一个场景、一套模型"。 我们相信物理规律的通用解是存在的,重力、碰撞、摩擦等等在任何场景里都是同一套规律。基座的价值在于跨场景复用。所以我们不急于变现,并不意味着不重视商业化。我们看重商业化,但现阶段更愿意先把基座的物理理解能力打扎实;商业化的节奏,会随着技术成熟和真实产业需求自然展开。 能力先于商业动作,组织风格保持克制。投资人最终愿意为可重复、可扩张的能力买单,而把这个能力打扎实,是我们当下唯一该做的事。 Q4:你也是智源行为世界模型创新中心的负责人,逆矩阵和智源研究院之间有关联吗? 陈博远:智源研究院一直定位在 AI 领域从 0 到 1 的原始创新,逆矩阵本身更加聚焦于通用世界基座模型的底层探索和商业技术开发。两者都在逼近同一个目标——让人工智能真正理解物理规律。 最关键的分水岭:真正具备基座模型潜力 Q5:世界模型会有自己的 Scaling Law 吗? 陈博远:物理世界一定有自己的 Scaling Law,但绝不能沿用语��模型或视频生成的 Scaling Law。 直接复制存在三个失效原因: 数据受限 :物理交互数据无法像互联网文本那样无限爬取,采集与筛选成本极高。 像素不等于物理 :视频中 90% 的信息,如纹理、光照、运动模糊等,是与物理规律无关的视觉冗余。 相关性不等于因果性 :纯观察只能学到统计上的相关性,而物理的核心是因果性,必须有“动作”的介入才能区分规律与巧合。 因此,我们必须在“物理隐空间”而非像素空间进行 Scale up。这包含四个关键技术判断: 压缩 :将世界编码为包含力、速度等抽象表征的高效物理隐空间,剥离视觉冗余。 因果性 :在隐空间原生引入动作干预,让模型理解动作导致的物理状态转移。 验证 :纯生成式的路径只有生成能力、缺少验证能力,容易出现穿透、失重这类“物理幻觉”。为此我们引入强化学习,如 RLVR 可验证信号奖励,通过明确的物理约束构建闭环对齐信号。 通用 :最终的隐空间必须能服务于不同场景(One for All),因为物理规律在不同场景中是同一的。 Q6:在模型训练中,具体是怎么设计机制让模型从“主动干预”中学习的?为了防止模型在面对未见环境时发生物理推演崩溃,引入的具体奖惩机制又是怎样的? 陈博远:物理世界规律产生于交互,而非被动感知。 因此,我们从零设计了模型架构,在底层物理隐空间原生引入动作。这不像传统的视频生成模型通过嫁接引擎来响应控制,就好比不能在没有方向盘的车上焊一个方向盘,然后宣称它是可操控的。 我们将动作,无论是关节运动量,还是移动残差向量,作为条件信号注入,去调制下一个物理状态的预测过程。这样,每一条数据的密度都翻倍了,模型学到的不再是“世界长什么样”,而是“采取何种动作,导致了什么转移”,从而实现从相关性到