智能AI
morning
22岁的北大青年学者,想做真正理解物理的通用世界基座模型|AI Founder 请回答
2026-05-22
1 阅读
科技不焦虑
资本与产业界正迅速达成共识:AI正在从虚拟世界迈向物理世界,而世界模型这套让机器真正理解物理规律、预测状态转移的底层认知引擎,是这条路上最关键的一块拼图。 据 Morgan Stanley 于 2025 年 4 月发布的《The Humanoid 100: Mapping the Humanoid Robot Value Chain》报告预测,世界模型所对应的下游产业——从具身智能到自动驾驶到工业仿真——全球总市场规模将在 2050 年达到 5 万亿美元量级。 当整个行业还在争论世界模型该怎么做的时候,一支从北大走出来的年轻团队——逆矩阵科技,带着对于世界模型路线独特的思考,走进了我们的视野。 ”做世界模型,最核心的问题是:模型学到的到底是相关性,还是因果?” “如何在隐空间里真正学到物理因果,而不只是一个视觉上说得过去、物理上随时会失效的假设,是我们最想解决的问题。” “世界模型必须引入主动干预,通过行动验证因果,而不是从旁观中拟合相关性。” “我们不是把物理规律显性地写进模型,而是通过物理上可验证的方法,让模型自然地涌现出对物理的理解。” …… 这些观点正来自于逆矩阵科技的联合创始人——陈博远,而他的另一个身份则是北大元培学院22岁的应届毕业生。 陈博远在大一时就中稿了AI三大顶会之一的NeurIPS,本科生在此发文本就极为罕见。此后几年,他又陆续拿下NeurIPS Oral(口头报告,全球录取率不足0.5%)和ACL最佳论文(全球仅4篇,国内学术机构首篇独立完成)。毕业前,他已是北大学生年度人物和北大五四奖章得主,这是北京大学给予学生的两项最高荣誉。 他与同出北大的师兄吉嘉铭一起创立了逆矩阵科技,做通用世界基座模型。吉嘉铭同样是2025北大学生年度人物,也是极少数同时获得苹果、腾讯、蚂蚁三家顶级科技企业认可的青年研究者——2025年Apple Scholar(苹果学者,全球遴选,中国大陆仅2位)、首届腾讯青云奖学金、蚂蚁Intech奖学金(全球共10名)。 2026年3月,公司完成超千万美元天使轮融资,由高瓴创投和北大系基金燕缘创投联合投资。近期获悉,他们又将完成新一轮融资。 近日,我们与陈博远围绕世界模型和他的成长经历进行了一次深入的对谈。 ▎以下为与陈博远的对话全文,略有删减: 创投家:世界模型现在非常火,从逆矩阵的角度是怎么理解这件事的? 陈博远:现在世界模型很火,可以说Anything is world model(一切皆世界模型)。但其实世界模型这个概念最早就是从强化学习和控制理论里来的。 1990年图灵奖得主、强化学习之父 Richard Sutton 提出 Dyna 架构,指出模型需要预测环境如何响应智能体的行动,再到后来2018年 David Ha 和 Schmidhuber 发表了一篇名为 World Models 的文章,指出智能体使用世界模型学习策略,并且在自己产生的梦世界中利用交互学习世界模型。 回到第一性原理。AI一定会从虚拟世界走向物理世界,而在物理世界里,核心是Interaction——交互。人类是怎么理解世界的?端起一个水杯大概三步:理解世界——什么是水杯,什么是桌面;编码到脑子里——隐空间;执行策略——不断尝试,失败了更新自己的信念。所以我们最终需要的世界模型,其实是一个状态转移模型——基于当下状态采取什么action(动作),触发什么next state(下一状态)。这个东西,强化学习研究了几十年。 创投家:你们的技术路线与李飞飞和LeCun有什么本质区别? 陈博远:做世界模型,最核心的问题是:模型学到的到底是相关性,还是因果? 举个例子。比如我们给模型看一段杯子落在桌上的视频,它完全可以推断出"桌子有引力把杯子吸住了",这个假设在统计上说得通,能解释观测到的状态变化,但是是错的。真实的物理原因只有重力。你没办法光靠观察区分这两种解释,得让模型去干预:把杯子移开,发现它掉地上了,"桌子有引力"就被排除了。这在强化学习里叫Reward Hacking(奖励破解),也是我们认为世界模型必须引入主动干预的根本原因,通过行动验证因果,而不是从旁观中拟合相关性。 拿这个标准去看现有的几条路线。李飞飞老师那边是从3D重建进来的,追求极致的空间还原,工程上很扎实。但三维重建解决的是"世界长什么样",不是"世界怎么运转"。知道瓶盖扣在瓶子上,和理解瓶盖没拧紧水会洒出来,是两件事。LeCun的方向是在隐空间里学表征,方向我们觉得是对的,但它有一个工程上很难绕过去的问题:像素生成好不好,人眼能直接判断,Critic Model(评判模型)容易建;隐空间里学到的表征对不对,怎么评,这个问题到现在没有公认的解法,也是JEPA(联合嵌入预测架构)路线从理论走向工程化最难的地方。 如何在隐空间里真正学到物理因果,而不只是一个视觉上说得过去、物理上随时会失效的假设,是我们最想解决的问题。 创投家:你们说自己做的是"通用世界基座模型",怎么理解这个概念? 陈博远:可以类比大语言模型的发展路径。早期也有人做法律大模型、金融大模型,针对垂直场景去训练。但最后大家发现,真正有效的方式是先训一个通用基座,让它把语言的底层规律学透,然后在上面做微调和适配。垂直模型天花板很低,通用模型才有涌现的可能。 世界模型今天也在经历类似的分岔。我们选择先做通用基座,有两个核心判断。第一,物理规律本身就是跨场景共通的——重力、碰撞、流体、时空一致性,这些东西不会因为你换了个应用场景就失效。一个真正学透了这些底层规律的模型,天然就能迁移到具身智能、工业仿真这些不同场景,不需要为每个领域重新建一套认知。第二,恰恰是这些场景,对世界模型的精确性和物理正确性要求极高,比如严肃工业场景里容不得半点物理判断失误,机器人抓取也不允许力的估算出错。所以我们从一开始就把物理正确性作为最核心的指标,而不是先追求视觉上好看、再回头补物理。 我们选择先把底层的物理因果学透,做一个通用的基座,基座做好了,上面的应用场景自然能长出来。 创投家:你们是把物理定律写入模型吗? 陈博远:不完全是。物理规律其实是人类对世界做的一个压缩。拉马努金不需要公式,也能一眼看出答案。我们不是把物理规律显性地写进模型,而是通过物理上可验证的方法,让模型自然地涌现出对物理的理解。 就像大模型的进化路径——大模型能有今天这么强的数学和编程能力,其实靠的也是强化学习——RLVR(基于可验证奖励的强化学习),用明确的、可验证的奖励信号,让模型在自我演进中涌现出对底层规律的理解。对物理世界也一样,我们可以做一些物理一致性的奖励,激活模型学习过程中的物理规律。 创投家:视频生成模型也在强调物理理解,这会是捷径吗? 陈博远:视频生成模型能生成流畅的动画,但可能出现穿模、不符合物理规律的现象——翻书时凭空出现第三只手。达到了“好看”,但不是“物理正确”。当然我们不是说基于开源视频模型做强化学习完全不行。 我们只是认为世界模型一定会经历从架构到数据的整套算法的改变。优先关注物理正确性,才符合Physical AI(物理人工智能)的需求。我们内部已经看到了一些Scaling Law(规模定律)的迹象,所以我们一直说,我们是一家关注通用世界基座模型的公司,不是只做面向具