机器人模型R1时刻！不只学动作更学会物理推理，LIBERO 99.9%

新智元报道编辑：犀牛【新智元导读】机器人不只要会动，更要会在物理世界中「想」！至简动力携手北大、港中文推出LaST-R1，让机器人「先想明白再下手」——仅靠1条轨迹预热RL就在LIBERO狂刷99.9%，真机任务从52.5%暴涨至93.75%，全面碾压SOTA。 LaST-R1 的意义在于：具身大模型的 RL 后训练，不再只是让机器人更会动，而是让它更会理解为什么这样动。当推理也能被环境反馈持续优化，机器人就不只是复现演示数据。它开始在交互中形成自己的物理直觉。这可能是具身大模型从「会模仿」走向「会思考行动」，也是走出实验室，走进千家万户的关键一步。论文链接: https://arxiv.org/abs/2604.28192 项目主页: https://siriyep.github.io/last-r1/ 代码链接： https://github.com/CHEN-H01/LaST-R1 LaST0具身基座模型首创Latent多模态思维链,将世界模型和具身模型对物理世界的推理与动作生成能力完美结合。已被ICML2026选为Spotlight论文,并已成为北美顶尖实验室对比的Baseline （arxiv链接：https://arxiv.org/abs/2601.05248 ）。 LaST-R1则是作为LaST0基座模型的续作,提出具身大模型后训练的全新范式。论文一经上传，很快在x上炸了！机器人真的「理解」自己为什么这么做吗？一句指令： Open bag zipper。机器人可以立刻伸手去拉。但它真的理解「拉链要沿着袋口运动」这个物理过程吗？过去几年， OpenVLA 、 π0 、 π0.5 等具身模型已经能把图像、语言和动作连接起来。但真实世界里，一个问题越来越明显：会模仿，不等于会适应。很多机器人学到的不是「拉链如何运动」，而是几条「像拉拉链」的轨迹。一旦袋子位置、拉链角度或光照变化，动作就可能失效。因为变化的不是像素，而是物理关系。现有多数具身模型仍遵循： Observation → Action 看到环境，直接生成动作。但机器人真正缺少的，也许是行动前的物理推理。 LaST-R1 要做的，就是让机器人在物理环境上学会先「想」，再「动」。 LaST-R1：不只是强化「动作」更要强化「物理推理」近日，至简动力、香港中文大学、北京大学计算机学院多媒体信息处理国家重点实验室提出了一种面向机器人操作的自适应物理隐空间推理强化学习框架 LaST-R1（Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning）。 LaST-R1：(a) 不同于仅严格优化动作的 vanilla RL 基线方法，(b) 我们的方法利用 LAPO 联合优化自适应 latent CoT 与物理执行过程；通过连接认知推理与控制，LaST-R1 实现了 (c) 更快的收敛速度、更高的仿真成功率，以及 (d) 更强的真实世界泛化能力它的核心思想是：不只优化机器人的「手」来操纵，也优化它的「脑」来推理。 LaST-R1 在动作生成前引入 latent CoT ：模型先在隐空间中建模场景结构、物体关系和未来物理动态，再生成动作。相比语言 CoT，latent reasoning 更适合机器人。因为接触、摩擦、位姿变化等物理信息，往往难以语言化，却可以在连续隐空间中被表示。更关键的是，LaST-R1 提出 LAPO（Latent-to-Action Policy Optimization），把 latent reasoning 纳入 RL 优化闭环。过去的具身模型 RL 主要优化 action space：哪个动作成功，就强化哪个动作。 LAPO 则让环境奖励同时优化：动作本身，以及动作之前的隐空间物理推理。成功轨迹强化「好动作」，也强化产生动作前的「推理」；失败轨迹不只修正动作，也调整模型内部的物理理解。此外，LaST-R1 引入 adaptive latent CoT ：简单任务少想一点，复杂接触操作多想一点。也就是说，机器人开始学会：什么时候该思考，什么时候该执行。实验中， LaST-R1 在 LIBERO benchmark 上仅用 1 条轨迹 warm-up ，通过在线 RL 后训练取得 99.9% 平均成功率；在真机任务中，仅用 30 条轨迹 warm-up ，将平均成功率从 52.5% 提升到 93.75% ，超过使用 100 条专家轨迹训练的 π0.5。更重要的是，在未见物体、背景变化和光照变化下，LaST-R1 的性能下降更小。这说明它学到的不是单一轨迹，而是更可迁移的空间语义和物理动态。 LaST-R1 框架概述 LaST-R1：(a) LaST-R1 是一个统一模型，以视觉观测和语言指令作为输入，其中视觉基础模型提供具有物理语义约束的 latent targets，用于在动作生成前引导 latent CoT 推理；(b) 在 LAPO 强化学习后训练过程中，LaST-R1 以闭环方式与环境交互，并将 latents、actions 和 rewards 存储到 rollout buffer 中，以联合重塑 latent space 与 action space；进一步地，模型通过基于预测概率学习生成 token，实现自适应推理，从而在不同任务中动态调整推理长度；(c) 通过 LAPO，LaST-R1 能够在多样化任务中形成自适应推理长度，从而提升泛化能力与执行稳定性整个 LaST-R1 框架可以概括为三个关键阶段：先推理、再优化、动态决定想多久。第一阶段：Latent Reasoning-before-Acting 给定当前视觉观测和语言指令，LaST-R1 不会直接生成动作，而是先生成一段 latent reasoning embeddings ，作为行动前的「隐空间物理思考」，用于建模物体关系、未来状态和操作动态。随后，模型再基于这些 latent reasoning 并行生成 action tokens。这一步解决的是：如何让动作生成建立在物理推理之上。第二阶段：LAPO：同时优化 latent 和 action LaST-R1 的核心算法是 LAPO（Latent-to-Action Policy Optimization）。传统具身大模型 RL 主要优化 action，而 LAPO 将 latent reasoning 也纳入强化学习目标，让环境奖励同时塑造「怎么想」和「怎么动」。论文中最关键的是 latent-level ratio surrogate ：其中，表示 rollout 时旧策略生成的 latent sequence，表示当前策略重新生成的 latent sequence， σ 控制 latent 分布宽度。直观来说，如果某条轨迹成功，LaST-R1 不仅会强化对应动作，也会强化动作之前产生的「好推理」。随后，LAPO 将 latent 和 action