不改架构、无需3D数据，强化学习如何让视频模型真正“理解”3D世界？

（本文阅读时间：10分钟）随着AI技术的快速发展，很多视频基础模型已经能够生成画面精美、风格多样的短片，但一个根本性问题始终未被解决：尽管模型擅长生成看起来逼真的画面，却并没有真正理解三维世界。当镜头旋转、推进或环绕时，这些模型生成的视频中的建筑会扭曲变形，物体会凭空消失，空间比例也常常前后矛盾。换句话说，这些模型学会了二维像素的统计规律，却尚未建立稳定的三维空间认知。为了解决这一问题，微软亚洲研究院推出了一种通过强化学习（RL）将视频生成与 3D 几何约束对齐的全新框架 World-R1 。与此前需要修改架构或引入 3D 模块的方法不同，World-R1 无需改动模型结构、不依赖 3D 数据集、也不会增加推理开销，即可显著提升视频的几何一致性。相关论文已被 ICML 2026 接收。图1：World-R1 让视频生成从“逐帧合成”迈向“世界建模”，输入文字提示，即可生成具备稳定镜头运动和 3D 空间一致性的视频世界。该研究工作上线后迅速引发关注，短短几天内 GitHub 已获得 300多星，也从侧面印证了业界对“几何一致视频生成”这一方向的重视。 World-R1 演示视频（视频中的背景画面均由World-R1生成）相关论文已整理于文末，欢迎点击相关链接，了解更多技术详情。从“会生成”到“会理解”：World-R1 在做什么？ World-R1 的核心思路是：当前的视频基础模型内部已经编码了丰富的三维几何信息，而这些空间知识尚未被有效激活，需要一个足够有效的训练信号，去“唤醒”它。对此，研究员们发现，强化学习可以把视频模型从“画面生成器”训练成“世界模拟器”。整个框架并不改动原始视频模型，而是在后训练阶段引入一套围绕三维一致性设计的强化学习机制，让模型在生成过程中逐步学会更稳定的空间结构、更可信的相机运动，以及更符合物理直觉的世界表现。图2：World-R1 通过“生成-重建-评估-优化”的闭环，让视频模型在强化学习中学会遵循真实世界的 3D 几何规律，从而生成更稳定、更可控、更具空间一致性的视频世界。隐式相机控制：把运动先验"藏进"噪声里在视频生成中，相机控制也一直是个难点。现有方法通常需要训练额外的控制网络来编码相机位姿。而World-R1 另辟蹊径，借鉴 Go-with-the-Flow 的思路，将相机运动轨迹通过光流投影和离散噪声传输，直接嵌入扩散模型的初始噪声中。具体而言，系统首先从文本提示中检测运动关键词（如 "push in（镜头推进）""orbit left（左环绕）"），生成确定性的相机外参序列，然后通过针孔相机模型将 3D 轨迹投影为 2D 光流场，再利用离散噪声传输机制将运动结构注入初始噪声，同时保持标准正态分布。最终效果是：模型无需改动架构，就能“天然”获得相机运动感知；同时推理流程保持不变，不增加额外成本。用“奖励”教模型识别什么才是真正的三维世界要让 RL 起作用，关键在于设计好奖励函数。World-R1 构建了一套精巧的复合奖励机制。给定一段生成的视频，系统首先利用 Depth Anything 3 将其"抬升"为 3D 高斯溅射（3DGS）表示，然后从四个维度评估质量：元视角评分（S_meta）：从一个大幅偏移的观察角度渲染 3D 重建结果，使用多模态大语言模型作为语义评判员，检测那些"正面看没问题但换个角度就穿帮"的几何幻觉。重建保真度（S_recon）：通过 1−LPIPS 度量 3D 重建结果与原视频的像素级一致性。轨迹对齐度（S_traj）：计算估计轨迹与目标轨迹的偏差，确保生成的相机运动严格遵循文字指令。通用生成质量（R_gen）：使用 HPSv3 对视频帧进行人类偏好评分，保持视觉美学和画质。整套奖励利用 Flow-GRPO 框架优化，有效将视频生成器转化为几何一致的世界模拟器。图3：从另一个视角检验视频是否“真的有三维结构”：World-R1 利用元视角评分识别几何崩坏，让视频生成不只好看，更要空间稳定、结构可信。周期性解耦训练：刚性与动态的平衡术过度强调 3D 一致性，会不可避免地抑制动态物体（如行走的行人、飘动的旗帜）的生成能力，让视频看起来十分“僵硬”。为此，World-R1 采用了周期性解耦训练策略。在主训练阶段，模型使用完整奖励强化几何一致性，每隔 100 步切换到动态微调阶段，仅在包含约 500 条高动态场景描述的数据子集上使用通用奖励进行优化。这一设计让模型可以在几何保真与动态生成之间取得平衡，有效防止过拟合于静态刚性约束。只用 3000 条文本，也能学会世界规律 World-R1 的另一个亮点在于，它并不依赖昂贵的3D 资产或带标注的视频数据。研究员们利用 AI 生成了约 3000 条高质量纯文本场景描述，涵盖自然风景、城市建筑、超现实空间等多种视觉域，并按相机运动复杂度分级，包括隐式运动、单方向、复合轨迹等。这使模型在摆脱特定视觉分布偏见的同时，也学习了通用的物理几何规律。实验结果：几何更稳定，画质也更好研究员们基于开源视频生成基座分别训练了 1.3B的World-R1-Small（48 x H200 GPU）和 14B的World-R1-Large（96 x H200 GPU）两个版本，并进行了全面评估。在 3D 重建评估中，World-R1-Small 对比基线 Wan 2.1-1.3B，PSNR 提升 +10.23 dB；World-R1-Large 对比 Wan 2.1-14B，提升 +7.91 dB。LPIPS 从 0.467 降至 0.201，几何幻觉被大幅抑制。表1：在衡量 3D 几何一致性的核心指标上，World-R1 全面超越现有视频生成基线，表明其生成结果不仅画面更稳定，也更符合真实三维世界结构。在 VBench 基准上，World-R1-Small 的美学质量（65.74）、成像质量（67.53）、主体一致性（97.58）均超越基线 Wan 2.1-1.3B，同时远超 ReCamMaster、DAS 等辅助控制方法（其美学质量仅 38～42 分）。这意味着，3D 能力的增强没有以牺牲画质为代价。表2：World-R1 在提升三维一致性的同时，并未损失视频生成质量，反而在美学、成像质量和主体一致性等关键指标上进一步领先，展现出“更稳定也更好看”的综合优势。在涉及复杂相机运动（如围绕建筑旋转、沿走廊推进）的场景中，基线模型经常出现物体消失、墙壁扭曲等不真实过渡。而World-R1 则保持了严格的物体永久性和刚性几何。3DGS 重建可视化进一步验证了这一结论，World-R1 生成视频的点云致密且结构化，而基线模型的重建结果稀疏且噪声严重。图4：面对复杂镜头运动，World-R1 能生成更稳定的视频序列和更完整的三维重建结果，相比现有视频模型更好地保持场景连续性、物体一致性与空间结构。消融实验验证了各组件的贡献：去除 3D 感知奖励：几何一致性显著下降，模型退化为普通视频生成器。去除通用生成奖励：画面美学质量明显劣化，出现视觉退化。去除隐式噪声注入：收敛速度大幅变慢，轨迹对齐精度下降。去除周期性解耦训练：模型过拟合于静