智能AI morning

机器人模型R1时刻!不只学动作更学会物理推理,LIBERO 99.9%

2026-05-11 1 阅读 新智元
新智元报道 编辑:犀牛 【新智元导读】 机器人不只要会动,更要会在物理世界中「想」!至简动力携手北大、港中文推出LaST-R1,让机器人「先想明白再下手」——仅靠1条轨迹预热RL就在LIBERO狂刷99.9%,真机任务从52.5%暴涨至93.75%,全面碾压SOTA。 LaST-R1 的意义在于: 具身大模型的 RL 后训练,不再只是让机器人更会动,而是让它更会理解为什么这样动。 当推理也能被环境反馈持续优化,机器人就不只是复现演示数据。 它开始在交互中形成自己的物理直觉。 这可能是具身大模型从「会模仿 」 走向 「 会思考行动 」 ,也是走出实验室,走进千家万户的关键一步。 论文链接: https://arxiv.org/abs/2604.28192 项目主页: https://siriyep.github.io/last-r1/ 代码链接: https://github.com/CHEN-H01/LaST-R1 LaST0具身基座模型首创Latent多模态思维链,将世界模型和具身模型对物理世界的推理与动作生成能力完美结合。 已被ICML2026选为Spotlight论文,并已成为北美顶尖实验室对比的Baseline (arxiv链接:https://arxiv.org/abs/2601.05248 ) 。 LaST-R1则是作为LaST0基座模型的续作,提出具身大模型后训练的全新范式。 论文一经上传,很快在x上炸了! 机器人真的「理解」 自己为什么这么做吗? 一句指令: Open bag zipper。 机器人可以立刻伸手去拉。但它真的理解 「 拉链要沿着袋口运动」 这个物理过程吗? 过去几年, OpenVLA 、 π0 、 π0.5 等具身模型已经能把图像、语言和动作连接起来。 但真实世界里,一个问题越来越明显: 会模仿,不等于会适应。 很多机器人学到的不是「 拉链如何运动」, 而是几条「 像拉拉链」的轨迹。 一旦袋子位置、拉链角度或光照变化,动作就可能失效。 因为变化的不是像素,而是物理关系。 现有多数 具身模型 仍遵循: Observation → Action 看到环境,直接生成动作。 但机器人真正缺少的,也许是行动前的物理推理。 LaST-R1 要做的,就是让机器人在物理环境上学会先「 想」 ,再「动」。 LaST-R1:不只是强化「动作」 更要强化「物理推理」 近日, 至简动力、香港中文大学、北京大学计算机学院多媒体信息处理国家重点实验室 提出了一种面向机器人操作的自适应物理隐空间推理强化学习框架 LaST-R1(Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning)。 LaST-R1:(a) 不同于仅严格优化动作的 vanilla RL 基线方法,(b) 我们的方法利用 LAPO 联合优化自适应 latent CoT 与物理执行过程;通过连接认知推理与控制,LaST-R1 实现了 (c) 更快的收敛速度、更高的仿真成功率,以及 (d) 更强的真实世界泛化能力 它的核心思想是: 不只优化 机器人 的「手」来操纵,也优化它的「脑」来推理。 LaST-R1 在动作生成前引入 latent CoT :模型先在隐空间中建模场景结构、物体关系和未来物理动态,再生成动作。 相比语言 CoT,latent reasoning 更适合机器人。 因为接触、摩擦、位姿变化等物理信息,往往难以语言化,却可以在连续隐空间中被表示。 更关键的是,LaST-R1 提出 LAPO(Latent-to-Action Policy Optimization) ,把 latent reasoning 纳入 RL 优化闭环。 过去的具身模型 RL 主要优化 action space:哪个动作成功,就强化哪个动作。 LAPO 则让环境奖励同时优化: 动作本身,以及动作之前的隐空间物理推理。 成功轨迹强化「好动作」,也强化产生动作前的「推理」;失败轨迹不只修正动作,也调整模型内部的物理理解。 此外,LaST-R1 引入 adaptive latent CoT :简单任务少想一点,复杂接触操作多想一点。 也就是说,机器人开始学会: 什么时候该思考,什么时候该执行。 实验中, LaST-R1 在 LIBERO benchmark 上仅用 1 条轨迹 warm-up ,通过在线 RL 后训练取得 99.9% 平均成功率 ;在真机任务中,仅用 30 条轨迹 warm-up ,将平均成功率从 52.5% 提升到 93.75% ,超过使用 100 条专家轨迹 训练的 π0.5。 更重要的是,在未见物体、背景变化和光照变化下,LaST-R1 的性能下降更小。 这说明它学到的不是单一轨迹,而是更可迁移的空间语义和物理动态。 LaST-R1 框架概述 LaST-R1:(a) LaST-R1 是一个统一模型,以视觉观测和语言指令作为输入,其中视觉基础模型提供具有物理语义约束的 latent targets,用于在动作生成前引导 latent CoT 推理;(b) 在 LAPO 强化学习后训练过程中,LaST-R1 以闭环方式与环境交互,并将 latents、actions 和 rewards 存储到 rollout buffer 中,以联合重塑 latent space 与 action space;进一步地,模型通过基于预测概率学习生成 token,实现自适应推理,从而在不同任务中动态调整推理长度;(c) 通过 LAPO,LaST-R1 能够在多样化任务中形成自适应推理长度,从而提升泛化能力与执行稳定性 整个 LaST-R1 框架可以概括为三个关键阶段: 先推理、再优化、动态决定想多久 。 第一阶段:Latent Reasoning-before-Acting 给定当前视觉观测和语言指令,LaST-R1 不会直接生成动作,而是先生成一段 latent reasoning embeddings ,作为行动前的「隐空间物理思考」,用于建模物体关系、未来状态和操作动态。随后,模型再基于这些 latent reasoning 并行生成 action tokens。这一步解决的是: 如何让动作生成建立在物理推理之上。 第二阶段:LAPO:同时优化 latent 和 action LaST-R1 的核心算法是 LAPO(Latent-to-Action Policy Optimization) 。 传统具身大模型 RL 主要优化 action,而 LAPO 将 latent reasoning 也纳入强化学习目标,让环境奖励同时塑造「怎么想」和「怎么动」。 论文中最关键的是 latent-level ratio surrogate : 其中, 表示 rollout 时旧策略生成的 latent sequence, 表示当前策略重新生成的 latent sequence, σ 控制 latent 分布宽度。 直观来说,如果某条轨迹成功,LaST-R1 不仅会强化对应动作,也会强化动作之前产生的「好推理」。 随后,LAPO 将 latent 和 action