智能AI
morning
不改架构、无需3D数据,强化学习如何让视频模型真正“理解”3D世界?
2026-05-09
1 阅读
微软研究院AI
(本文阅读时间:10分钟) 随着AI技术的快速发展,很多视频基础模型已经能够生成画面精美、风格多样的短片,但一个根本性问题始终未被解决:尽管模型擅长生成看起来逼真的画面,却并没有真正理解三维世界。当镜头旋转、推进或环绕时,这些模型生成的视频中的建筑会扭曲变形,物体会凭空消失,空间比例也常常前后矛盾。换句话说,这些模型学会了二维像素的统计规律,却尚未建立稳定的三维空间认知。 为了解决这一问题,微软亚洲研究院推出了一种通过强化学习(RL)将视频生成与 3D 几何约束对齐的全新框架 World-R1 。与此前需要修改架构或引入 3D 模块的方法不同,World-R1 无需改动模型结构、不依赖 3D 数据集、也不会增加推理开销 ,即可显著提升视频的几何一致性。 相关论文已被 ICML 2026 接收。 图1:World-R1 让视频生成从“逐帧合成”迈向“世界建模”,输入文字提示,即可生成具备稳定镜头运动和 3D 空间一致性的视频世界。 该研究工作上线后迅速引发关注,短短几天内 GitHub 已获得 300多星,也从侧面印证了业界对“几何一致视频生成”这一方向的重视。 World-R1 演示视频(视频中的背景画面均由World-R1生成) 相关论文已整理于文末,欢迎点击相关链接,了解更多技术详情。 从“会生成”到“会理解”:World-R1 在做什么? World-R1 的核心思路是:当前的视频基础模型内部已经编码了丰富的三维几何信息,而这些空间知识尚未被有效激活,需要一个足够有效的训练信号,去“唤醒”它。 对此,研究员们发现,强化学习可以把视频模型从“画面生成器”训练成“世界模拟器”。整个框架并不改动原始视频模型,而是在后训练阶段引入一套围绕三维一致性设计的强化学习机制,让模型在生成过程中逐步学会更稳定的空间结构、更可信的相机运动,以及更符合物理直觉的世界表现。 图2:World-R1 通过“生成-重建-评估-优化”的闭环,让视频模型在强化学习中学会遵循真实世界的 3D 几何规律,从而生成更稳定、更可控、更具空间一致性的视频世界 。 隐式相机控制:把运动先验"藏进"噪声里 在视频生成中,相机控制也一直是个难点。现有方法通常需要训练额外的控制网络来编码相机位姿。而World-R1 另辟蹊径,借鉴 Go-with-the-Flow 的思路,将相机运动轨迹通过光流投影和离散噪声传输,直接嵌入扩散模型的初始噪声中。 具体而言,系统首先从文本提示中检测运动关键词(如 "push in(镜头推进)""orbit left(左环绕)"),生成确定性的相机外参序列,然后通过针孔相机模型将 3D 轨迹投影为 2D 光流场,再利用离散噪声传输机制将运动结构注入初始噪声,同时保持标准正态分布。 最终效果是:模型无需改动架构,就能“天然”获得相机运动感知;同时推理流程保持不变,不增加额外成本。 用“奖励”教模型识别什么才是真正的三维世界 要让 RL 起作用,关键在于设计好奖励函数。World-R1 构建了一套精巧的复合奖励机制。给定一段生成的视频,系统首先利用 Depth Anything 3 将其"抬升"为 3D 高斯溅射(3DGS)表示,然后从四个维度评估质量: 元视角评分(S_meta) :从一个大幅偏移的观察角度渲染 3D 重建结果,使用多模态大语言模型作为语义评判员,检测那些"正面看没问题但换个角度就穿帮"的几何幻觉。 重建保真度(S_recon) :通过 1−LPIPS 度量 3D 重建结果与原视频的像素级一致性。 轨迹对齐度(S_traj) :计算估计轨迹与目标轨迹的偏差,确保生成的相机运动严格遵循文字指令。 通用生成质量(R_gen) :使用 HPSv3 对视频帧进行人类偏好评分,保持视觉美学和画质。 整套奖励利用 Flow-GRPO 框架优化,有效将视频生成器转化为几何一致的世界模拟器。 图3:从另一个视角检验视频是否“真的有三维结构”:World-R1 利用元视角评分识别几何崩坏,让视频生成不只好看,更要空间稳定、结构可信。 周期性解耦训练:刚性与动态的平衡术 过度强调 3D 一致性,会不可避免地抑制动态物体(如行走的行人、飘动的旗帜)的生成能力,让视频看起来十分“僵硬”。 为此,World-R1 采用了周期性解耦训练策略。在主训练阶段,模型使用完整奖励强化几何一致性,每隔 100 步切换到动态微调阶段,仅在包含约 500 条高动态场景描述的数据子集上使用通用奖励进行优化。 这一设计让模型可以在几何保真与动态生成之间取得平衡,有效防止过拟合于静态刚性约束。 只用 3000 条文本,也能学会世界规律 World-R1 的另一个亮点在于,它并不依赖昂贵的3D 资产或带标注的视频数据。研究员们利用 AI 生成了约 3000 条高质量纯文本场景描述,涵盖自然风景、城市建筑、超现实空间等多种视觉域,并按相机运动复杂度分级,包括隐式运动、单方向、复合轨迹等。这使模型在摆脱特定视觉分布偏见的同时,也学习了通用的物理几何规律。 实验结果:几何更稳定,画质也更好 研究员们基于开源视频生成基座分别训练了 1.3B的World-R1-Small(48 x H200 GPU)和 14B的World-R1-Large(96 x H200 GPU)两个版本,并进行了全面评估。 在 3D 重建评估中,World-R1-Small 对比基线 Wan 2.1-1.3B,PSNR 提升 +10.23 dB;World-R1-Large 对比 Wan 2.1-14B,提升 +7.91 dB。LPIPS 从 0.467 降至 0.201,几何幻觉被大幅抑制。 表1:在衡量 3D 几何一致性的核心指标上,World-R1 全面超越现有视频生成基线,表明其生成结果不仅画面更稳定,也更符合真实三维世界结构。 在 VBench 基准上,World-R1-Small 的美学质量(65.74)、成像质量(67.53)、主体一致性(97.58)均超越基线 Wan 2.1-1.3B,同时远超 ReCamMaster、DAS 等辅助控制方法(其美学质量仅 38~42 分)。这意味着,3D 能力的增强没有以牺牲画质为代价。 表2:World-R1 在提升三维一致性的同时,并未损失视频生成质量,反而在美学、成像质量和主体一致性等关键指标上进一步领先,展现出“更稳定也更好看”的综合优势。 在涉及复杂相机运动(如围绕建筑旋转、沿走廊推进)的场景中,基线模型经常出现物体消失、墙壁扭曲等不真实过渡。而World-R1 则保持了严格的物体永久性和刚性几何。3DGS 重建可视化进一步验证了这一结论,World-R1 生成视频的点云致密且结构化,而基线模型的重建结果稀疏且噪声严重。 图4:面对复杂镜头运动,World-R1 能生成更稳定的视频序列和更完整的三维重建结果,相比现有视频模型更好地保持场景连续性、物体一致性与空间结构。 消融实验验证了各组件的贡献: 去除 3D 感知奖励:几何一致性显著下降,模型退化为普通视频生成器。 去除通用生成奖励:画面美学质量明显劣化,出现视觉退化。 去除隐式噪声注入:收敛速度大幅变慢,轨迹对齐精度下降。 去除周期性解耦训练:模型过拟合于静