全新世界模型悟界·Physis将开源,22岁北大本科生担任负责人|智源大会

2026-06-17 1 阅读 华卫
作者|华卫 “世界模型是下一代人工智能基座模型。”智源研究院院长王仲远在前不久对我们表示,这一基座模型意味着有望和大语言模型相提并论的下一代重大人工智能范式变革和重大突破的机会。 今年,智源大会发布的一系列创新成果主要涵盖三个部分:基座大模型、智能体和基础软硬件生态。其中一大亮点就是,一款正在研发中的新世界模型悟界·Physis。 王仲远透露,该模型在训练完成以后将会开源开放。并且,现在22岁的陈博远是智源研究院行为世界模型创新中心的负责人,该中心聚焦下一代通用世界基座模型的学术研究与前沿探索,旨在构建面向真实物理世界的通用基座模型。 据了解,陈博远在2004年出生,来自山东,是北京大学元培学院人工智能方向本科生,也是逆矩阵科技 Physis 的创始人之一。 同时,智源构建了面向具身领域、以世界模型理念为核心构建的具身大脑悟界·RoboBrain Orca,其相对通用基座模型集成更多面向具身领域的Data,可以进行下一个物理状态的预测。 此外,大会开幕式上,图灵奖得主、美国国家工程院院士、IEEE会士Whitfield Diffie和图灵奖得主、马萨诸塞大学阿默斯特分校荣誉退休教授Andrew Barto都分别做了主题报告。Diffie强调,当前编程实践中,对智能体的限制(Confinement)即保证智能体只能访问授权资源,在现有编程中仍做得不足。 Barto 则提出,“强化学习与神经网络的计算研究从一开始便紧密交织”,二者“均发端于大脑如何运作与学习的假说”,而“深度强化学习的计算能力与大脑奖励系统的最新成果相结合,指明了下一轮进展的方向”。最后,他以“小心你许的愿,你可能真的会得到它”发出警示,提醒人们警惕奖励信号设计中的“反常实例化”风险。 悟界系列大模型:面向物理世界构建的AI基座模型 如今,随着多模态模型的研究深入,人工智能正经历一场重大的范式变革,正在从“预测下一个词元”演进到“预测下一个物理状态”,这是世界模型的核心本质。 智源研究院是国内最早提出并开展世界模型研究的科研机构。2023年智源大会上,杨立昆(Yann LeCun)就阐述了新一代世界模型的概念;2024年智源大会上,智源研究院提出的人工智能大模型技术路线预判,明确指出世界模型是下一代大模型技术;2024年发布的悟界·Emu3和2025年发布的悟界·Emu3.5,更是全球首个原生多模态世界模型。 基于在大模型领域持续的技术积累与前瞻布局,2026年智源推出了悟界·Physis-v0.1。悟界·Physis的诞生正是基于智源对人工智能发展路径的判断以及从“悟道”到“悟界”的技术传承与延续。随着大语言与多模态技术日趋成熟,未来人工智能的发展重心将进入世界模型时代。 据介绍,悟界·Physis-v0.1是全球首款通用世界基座模型,构筑真实物理世界人工智能底层核心引擎,重塑AI物理感知与推演的底层技术体系。悟界·Physis-v0.1彻底打破传统AI垂类场景专用的技术瓶颈,针对性解决行业共性难题,能有效弥补主流人工智能模型不懂真实物理规则、物理推演结果可信度低、长程时序记忆缺失的核心短板,以通用基座能力实现全场景物理交互、感知与决策的统一,从根源提升AI物理推理的真实性与可靠性。 依托独创技术架构,悟界·Physis-v0.1以物理隐空间表征替代传统像素、帧级预测方案,实现跨场景通用物理规律强化学习。搭载专属物理状态编码器,可完成视频、深度RGB、3D点云、力触反馈等全模态信息压缩,统一转化为标准化隐空间物理状态 Latent State。模型支持50+复杂物理场景长程推理,具备物理一致性、动作因果性、长程可推演性、通用泛化性四大核心能力,凭借高效的推理效率与极强的泛化能力,达到行业领先水平,可广泛应用于严肃工业、具身智能、物理仿真、科学研究等真实物理场景。 智源认为,现有世界模型相关的技术路线可分为四类:第一类是以语言为中心的世界模型,包括VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果;第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界; 第三类是以三维结构为中心的世界模型,包括3D重建以及李飞飞团队的World Labs Marble模型,不过模型重建3D空间不等于理解世界,几何结构也不代表物理状态;第四类是以视觉表征为中心的世界模型,比如杨立昆的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。 在智源看来,世界模型作为面向真实物理世界的下一代基座模型,以“预测下一物理状态”为核心,代表着人工智能的下一个重要范式跃迁。世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,同时能涵盖文本、视频、深度、力觉、感知等全模态数据,还具备主动交互能力,能够支撑各种物理世界的下游应用。 以预测下一物理状态为核心,构建新具身大脑 针对具身智能面临的硬件不成熟、数据短缺、模型能力弱、落地应用难的四大挑战,智源构建了自底向上的全栈具身智能技术体系,并先后发布了悟界·RoboBrain和悟界·RoboOS。 据介绍,智源正在研发中的悟界·RoboBrain Orca,以预测下一个物理状态为核心来构建具身大脑,融合了大量Ego-centric交互数据,强化世界模型的具身表征,提升下游少样本和跨场景泛化的能力。 据介绍,悟界·RoboBrain Orca 构建了 “统一表征 — 建模 — 预测 — 交互” 完整闭环,实现从 Next Token / Frame / Action Prediction 升级为 Next Physical State Prediction,彻底打破传统AI仅能理解文本的局限,推动 AI 从理解文本走向感知、预测与交互物理世界,并融合大量Ego-centric交互数据,强化了世界模型的具身表征,有效提升下游少样本与跨场景的泛化能力。 具体来说,悟界·RoboBrain Orca具备统一表征、因果推演、模态解码三大核心能力,可同时生成语言思考、视觉预测与动作决策,实现“想、看、动”三位一体,赋予具身智能机器人打通“认知—预测—行动”完整链路的能力,支撑具身智能机器人在物流场景、酒店服务场景等真实环境中的长期自主作业。 多领域布局,发布四款自研智能体 这次,智源还推出了四款自主研发的智能体,它们分别面向心脏辅助诊断、科学发现、个人专属助理以及生物安全防护等领域。 其中,BAAI Cardiac Agent是全球首个面向心脏磁共振的辅助诊断智能体,依托安贞医院两千余例心血管患者超3万条影像-文本配对多模态数据,构建一站式“结构分割-功能评估-疾病诊断-智能化报告”智能体,推动优质心血管医疗能力普惠可及。BAAI Cardiac Agent不仅能显著提升CMR影像的解读效率,同时融合安贞医院心脏专科医师的临床诊疗经验,其Agent-Expert系统复刻专家团队协作式诊疗流程,最终实现心脏疾病诊断精确度达到安贞医院顶尖心血管医生的诊断水平,AUC超0.93。 AREX是面向科学发现的自主研究智能体,致力于推动人工智能从模仿学习向自主学习跨越,让AI