22岁的北大青年学者，想做真正理解物理的通用世界基座模型｜AI Founder 请回答

资本与产业界正迅速达成共识：AI正在从虚拟世界迈向物理世界，而世界模型这套让机器真正理解物理规律、预测状态转移的底层认知引擎，是这条路上最关键的一块拼图。据 Morgan Stanley 于 2025 年 4 月发布的《The Humanoid 100: Mapping the Humanoid Robot Value Chain》报告预测，世界模型所对应的下游产业——从具身智能到自动驾驶到工业仿真——全球总市场规模将在 2050 年达到 5 万亿美元量级。当整个行业还在争论世界模型该怎么做的时候，一支从北大走出来的年轻团队——逆矩阵科技，带着对于世界模型路线独特的思考，走进了我们的视野。 ”做世界模型，最核心的问题是：模型学到的到底是相关性，还是因果？” “如何在隐空间里真正学到物理因果，而不只是一个视觉上说得过去、物理上随时会失效的假设，是我们最想解决的问题。” “世界模型必须引入主动干预，通过行动验证因果，而不是从旁观中拟合相关性。” “我们不是把物理规律显性地写进模型，而是通过物理上可验证的方法，让模型自然地涌现出对物理的理解。” …… 这些观点正来自于逆矩阵科技的联合创始人——陈博远，而他的另一个身份则是北大元培学院22岁的应届毕业生。陈博远在大一时就中稿了AI三大顶会之一的NeurIPS，本科生在此发文本就极为罕见。此后几年，他又陆续拿下NeurIPS Oral（口头报告，全球录取率不足0.5%）和ACL最佳论文（全球仅4篇，国内学术机构首篇独立完成）。毕业前，他已是北大学生年度人物和北大五四奖章得主，这是北京大学给予学生的两项最高荣誉。他与同出北大的师兄吉嘉铭一起创立了逆矩阵科技，做通用世界基座模型。吉嘉铭同样是2025北大学生年度人物，也是极少数同时获得苹果、腾讯、蚂蚁三家顶级科技企业认可的青年研究者——2025年Apple Scholar（苹果学者，全球遴选，中国大陆仅2位）、首届腾讯青云奖学金、蚂蚁Intech奖学金（全球共10名）。 2026年3月，公司完成超千万美元天使轮融资，由高瓴创投和北大系基金燕缘创投联合投资。近期获悉，他们又将完成新一轮融资。近日，我们与陈博远围绕世界模型和他的成长经历进行了一次深入的对谈。 ▎以下为与陈博远的对话全文，略有删减：创投家：世界模型现在非常火，从逆矩阵的角度是怎么理解这件事的？陈博远：现在世界模型很火，可以说Anything is world model（一切皆世界模型）。但其实世界模型这个概念最早就是从强化学习和控制理论里来的。 1990年图灵奖得主、强化学习之父 Richard Sutton 提出 Dyna 架构，指出模型需要预测环境如何响应智能体的行动，再到后来2018年 David Ha 和 Schmidhuber 发表了一篇名为 World Models 的文章，指出智能体使用世界模型学习策略，并且在自己产生的梦世界中利用交互学习世界模型。回到第一性原理。AI一定会从虚拟世界走向物理世界，而在物理世界里，核心是Interaction——交互。人类是怎么理解世界的？端起一个水杯大概三步：理解世界——什么是水杯，什么是桌面；编码到脑子里——隐空间；执行策略——不断尝试，失败了更新自己的信念。所以我们最终需要的世界模型，其实是一个状态转移模型——基于当下状态采取什么action（动作），触发什么next state（下一状态）。这个东西，强化学习研究了几十年。创投家：你们的技术路线与李飞飞和LeCun有什么本质区别？陈博远：做世界模型，最核心的问题是：模型学到的到底是相关性，还是因果？举个例子。比如我们给模型看一段杯子落在桌上的视频，它完全可以推断出"桌子有引力把杯子吸住了"，这个假设在统计上说得通，能解释观测到的状态变化，但是是错的。真实的物理原因只有重力。你没办法光靠观察区分这两种解释，得让模型去干预：把杯子移开，发现它掉地上了，"桌子有引力"就被排除了。这在强化学习里叫Reward Hacking（奖励破解），也是我们认为世界模型必须引入主动干预的根本原因，通过行动验证因果，而不是从旁观中拟合相关性。拿这个标准去看现有的几条路线。李飞飞老师那边是从3D重建进来的，追求极致的空间还原，工程上很扎实。但三维重建解决的是"世界长什么样"，不是"世界怎么运转"。知道瓶盖扣在瓶子上，和理解瓶盖没拧紧水会洒出来，是两件事。LeCun的方向是在隐空间里学表征，方向我们觉得是对的，但它有一个工程上很难绕过去的问题：像素生成好不好，人眼能直接判断，Critic Model（评判模型）容易建；隐空间里学到的表征对不对，怎么评，这个问题到现在没有公认的解法，也是JEPA（联合嵌入预测架构）路线从理论走向工程化最难的地方。如何在隐空间里真正学到物理因果，而不只是一个视觉上说得过去、物理上随时会失效的假设，是我们最想解决的问题。创投家：你们说自己做的是"通用世界基座模型"，怎么理解这个概念？陈博远：可以类比大语言模型的发展路径。早期也有人做法律大模型、金融大模型，针对垂直场景去训练。但最后大家发现，真正有效的方式是先训一个通用基座，让它把语言的底层规律学透，然后在上面做微调和适配。垂直模型天花板很低，通用模型才有涌现的可能。世界模型今天也在经历类似的分岔。我们选择先做通用基座，有两个核心判断。第一，物理规律本身就是跨场景共通的——重力、碰撞、流体、时空一致性，这些东西不会因为你换了个应用场景就失效。一个真正学透了这些底层规律的模型，天然就能迁移到具身智能、工业仿真这些不同场景，不需要为每个领域重新建一套认知。第二，恰恰是这些场景，对世界模型的精确性和物理正确性要求极高，比如严肃工业场景里容不得半点物理判断失误，机器人抓取也不允许力的估算出错。所以我们从一开始就把物理正确性作为最核心的指标，而不是先追求视觉上好看、再回头补物理。我们选择先把底层的物理因果学透，做一个通用的基座，基座做好了，上面的应用场景自然能长出来。创投家：你们是把物理定律写入模型吗？陈博远：不完全是。物理规律其实是人类对世界做的一个压缩。拉马努金不需要公式，也能一眼看出答案。我们不是把物理规律显性地写进模型，而是通过物理上可验证的方法，让模型自然地涌现出对物理的理解。就像大模型的进化路径——大模型能有今天这么强的数学和编程能力，其实靠的也是强化学习——RLVR（基于可验证奖励的强化学习），用明确的、可验证的奖励信号，让模型在自我演进中涌现出对底层规律的理解。对物理世界也一样，我们可以做一些物理一致性的奖励，激活模型学习过程中的物理规律。创投家：视频生成模型也在强调物理理解，这会是捷径吗？陈博远：视频生成模型能生成流畅的动画，但可能出现穿模、不符合物理规律的现象——翻书时凭空出现第三只手。达到了“好看”，但不是“物理正确”。当然我们不是说基于开源视频模型做强化学习完全不行。我们只是认为世界模型一定会经历从架构到数据的整套算法的改变。优先关注物理正确性，才符合Physical AI（物理人工智能）的需求。我们内部已经看到了一些Scaling Law（规模定律）的迹象，所以我们一直说，我们是一家关注通用世界基座模型的公司，不是只做面向具

订阅66必读