智能AI morning

2026智源大会:智源研究院为世界模型「正本清源」

2026-06-13 1 阅读 新智元
新智元报道 【新智元导读】 从「预测下一个 Token」到「预测下一个物理状态」,智源大会上,智源研究院为世界模型正本清源,立起了一条通往物理 AGI 的清晰路标。 当AI从赛博世界走向物理世界,开始深度介入我们的日常,所有人都在追问: AI的下一程,路在何方? 在今年的智源大会上,来自全球各地的顶尖AI大佬给出了自己的答案。 作为全球AI领域顶级的内行盛会,自2019年启幕以来,智源大会已连续成功举办 八 届,累计汇聚了14位图灵奖得主、过千位产学研顶尖专家,吸引全球30多个国家和地区、超1000万人次专业人士参与。 它是公认的全球人工智能创新风向标,更是定义下一个AGI时代发展方向的「AI春晚」。 智源定义世界模型四大分类 世界模型被普遍视为继大语言模型之后,人工智能发展史上最具变革性的战略机遇,亦是通往物理世界通用人工智能(Physical AGI)的必由之路。 当前,业界对世界模型的战略价值已形成广泛共识,但在技术路线的选择上仍处于多元探索、尚未收敛的蓬勃发展阶段—— 从「预测下一个词元」到「预测下一个物理状态」的范式跃迁,正在成为最具潜力的主流方向之一。 智源研究院院长王仲远在做智源进展报告中提到,当下人工智能正沿着从大语言模型向多模态大模型再向世界模型演进的方向,加速从数字世界迈向物理世界。 世界模型作为面向真实物理世界的下一代基座模型,以「预测下一物理状态」为核心,代表着人工智能的下一个重要范式跃迁。 世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,同时能涵盖文本、视频、深度、力觉、感知等全模态数据,还具备主动交互能力,能够支撑各种物理世界的下游应用。 智源研究院是国内最早提出并开展世界模型研究的科研机构。 2023年智源大会上,杨立昆(Yann LeCun)就阐述了新一代世界模型的概念;2024年智源大会上,智源研究院提出的人工智能大模型技术路线预判,明确指出世界模型是下一代大模型技术;2024年发布的悟界·Emu3和2025年发布的悟界·Emu3.5,更是全球首个原生多模态世界模型。 基于在大模型领域持续的技术积累与前瞻布局,2026年智源推出了悟界·Physis-v0.1。 悟界·Physis的诞生正是基于智源对人工智能发展路径的判断以及从「悟道」到「悟界」的技术传承与延续。 随着大语言与多模态技术日趋成熟,未来人工智能的发展重心将进入世界模型时代。 智源认为,现有世界模型相关的技术路线可分为四类: 第一类是以语言为中心的世界模型,包括VLM、VLA,模型在文本空间中预测下一个词,学到的是语言描述的世界,并不能理解背后的物理后果; 第二类是以像素为中心的世界模型,像Sora和Seedance等视频生成类模型,在视觉空间中学习视频或图像,学到的是像素描述的世界; 第三类是以三维结构为中心的世界模型,包括3D重建以及李飞飞团队的World Labs Marble模型,不过模型重建3D空间不等于理解世界,几何结构也不代表物理状态; 第四类是以视觉表征为中心的世界模型,比如杨立昆的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。 智源在此方向上的核心布局体现为悟界·Physis-v0.1与正在研发中的悟界·RoboBrain Orca。 悟界·Physis-v0.1是全球首款通用世界基座模型,构筑真实物理世界人工智能底层核心引擎,重塑AI物理感知与推演的底层技术体系。 悟界·Physis-v0.1彻底打破传统AI垂类场景专用的技术瓶颈,针对性解决行业共性难题,能有效弥补主流人工智能模型不懂真实物理规则、物理推演结果可信度低、长程时序记忆缺失的核心短板,以通用基座能力实现全场景物理交互、感知与决策的统一,从根源提升AI物理推理的真实性与可靠性。 依托独创技术架构构建行业领先壁垒,悟界·Physis-v0.1以物理隐空间表征替代传统像素、帧级预测方案,实现跨场景通用物理规律强化学习。 搭载专属物理状态编码器,可完成视频、深度RGB、3D点云、力触反馈等全模态信息压缩,统一转化为标准化隐空间物理状态 Latent State。 模型支持50+复杂物理场景长程推理,具备物理一致性、动作因果性、长程可推演性、通用泛化性四大核心能力,凭借高效的推理效率与极强的泛化能力,达到行业领先水平,可广泛应用于严肃工业、具身智能、物理仿真、科学研究等真实物理场景。 悟界·RoboBrain Orca是以下一个物理状态预测为核心的具身大脑,构建「统一表征 — 建模 — 预测 — 交互」完整闭环,实现从 Next Token / Frame / Action Prediction 升级为 Next Physical State Prediction,彻底打破传统AI仅能理解文本的局限,推动 AI 从理解文本走向感知、预测与交互物理世界,并融合大量Ego-centric交互数据,强化世界模型的具身表征,有效提升下游少样本与跨场景的泛化能力。 悟界·RoboBrain Orca具备统一表征、因果推演、模态解码三大核心能力,可同时生成语言思考、视觉预测与动作决策,实现「想、看、动」三位一体,赋予具身智能机器人打通「认知—预测—行动」完整链路的能力,支撑具身智能机器人在物流场景、酒店服务场景等真实环境中的长期自主作业。 从悟道到悟界 智源构建通往物理AGI的 完整技术路径 本届大会上,智源研究院全面展示「从悟道到悟界」的技术跃迁成果——从2021年让AI「学会语言」的悟道系列,到2024年让AI「懂世界」的悟界系列,智源正在构建一条通往物理AGI的完整技术路径。 智源依托自研科研体系,完成从悟道到悟界大模型体系全面升级,在核心赛道实现原创技术领跑。 多模态领域悟界·Emu3于2026年1月登上Nature正刊,是我国科研机构主导的大模型成果首次在Nature正刊发表。 在此基础上,悟界·Emu3.5完成关键升级,从「预测下一个词元」进一步扩展到跨视觉与语言序列的「下一状态预测」,以纯自回归框架原生实现文本、图像、视频的统一理解与生成,打破传统多模态技术路线的模态孤岛与架构割裂。 它内置时空关系、因果逻辑与物理世界演化规律建模能力,不仅攻克了生成内容违背真实世界物理规则的行业痛点,更补齐了AI从数字世界走向物理世界的技术缺失,兼具顶级学术价值与底层产业支撑价值。 悟界·Brainμ1.0是全球首个理解与生成统一的多模态神经科学大模型,旨在从世界模型出发,构建多模态脑科学通用基座。 模型可将人类、猕猴、小鼠跨物种,EEG、fMRI、MEG、fNIRS、神经像素、钙成像等全模态脑信号,统一编码为标准Token,实现数据格式归一,并通过多模态对齐,将脑信号Token与语言、图像、视频等通用模态对齐,嵌入预训练大模型,充分释放大模型知识表达与泛化能力。 此外,全球最大的AI-Ready神经科学数据平台悟界·BrainToken,汇聚全球开源神经科学数据并完成全量Token化,总量突破万亿级别。 Brainμ1.0可利用数据Token化,解决神经科学领域数据孤岛(复杂、稀疏、不对齐等)问题,降低神经疾病诊断成本,辅助筛查诊断阿尔兹海默症、抑郁症、帕金森等疾病。 目前,