智能AI morning

具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式

2026-05-11 1 阅读 思邈
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 具身大模型R1时刻:LIBERO终结者,99.9%背后的物理推理新范式 思邈 2026-05-11 09:51:36 来源: 量子位 真正学会了在隐空间里进行“物理思考” 允中 发自 凹非寺 量子位 | 公众号 QbitAI 机器人拉个拉链,到底需不需要“脑子”? 过去几年,从OpenVLA到π0、π0.5,具身大模型已经能让机器人把指令和动作连得有模有样。 但一旦包的位置挪了几厘米,或者光照暗了一点,它们往往就会“大脑宕机”。 究其原因,是因为这些机器人大多在玩“连连看”: 看到观察结果,直接输出动作。 它们只是记住了轨迹,却并不理解背后的物理逻辑。 现在,一种让机器人“先想明白,再稳定行动”的新范式来了。 由至简动力、北大、港中文联合提出的 LaST-R1 ,首次将隐空间 物理推理 塞进了强化学习的闭环。 同时,LaST-R1作为LaST₀基座模型的物理世界后训练范式,LaST₀首创面向机器人的隐空间物理思维链推理,并已中稿ICML2026 Spotlight(top 2.2%)。 它的表现有多夸张? 仿真满分级别 :在LIBERO benchmark上,仅靠1条轨迹预热,平均成功率就冲到了 99.9% ; 真机性能起飞:在真实抓取、旋转等复杂任务中,比目前最强的SOTA模型π0.5还要高出 22.5% 。 强化“物理推理”:即便换了物体、背景或光照,它依然能稳如老狗,不再是单纯的动作复刻,而是真正学会了在隐空间里进行“物理思考”。 这个让机器人长出“物理脑”的LaST-R1,到底是怎么炼成的? 那个让环境反馈同时优化“怎么想”和“怎么动”的 LAPO 算法又藏着什么玄机? 我们顺着这篇论文,深挖了一下这套能让机器人“深思熟虑”的后训练黑科技。 具身大模型的隐形天花板:只会模仿,不懂物理 尽管从OpenVLA到π0.5,具身大模型已经完成了图像、语言与动作的初步对齐。 但在实际落地中,工业界发现了一个致命的“幻觉”: 能模仿,不等于能在物理世界泛化。 这就导致了极差的泛化性。 打个比方,机器人可能记住了100种拉拉链的轨迹,但只要拉链的角度偏转15度,或者光照发生变化,单纯靠“观察→动作”的端到端映射就会失效。 核心问题在于,现有的VLA模型缺少一个 “思考” 的中间层——即让机器人在行动之前,对物理世界进行推理。 过去,学术界也曾尝试引入思维链(CoT)来解决推理问题。 但对于机器人操作而言,语言推理往往太慢且颗粒度太粗,你很难用文字精准描述“拉链咬合时的细微阻力反馈”。 LaST-R1的核心突破,就是放弃了低效的语言CoT,转而在隐空间(Latent Space)中构建物理推理链。 它不再让机器人看到图像就“闭眼”出动作,而是先在隐性空间里建模场景的结构、物体的物理关系以及未来的动态变化。 然而,要让机器人学会这种“思考”,仅靠静态的模仿学习(SFT)是不够的。 目前的强化学习(RL)方法大多像是一个只看结果的严厉教练:它只告诉机器人动作成没成功(优化Action Space),却无法指导机器人“刚才那下你是怎么想的”。 针对这一痛点,该团队提出的LAPO(Latent-to-Action Policy Optimization)算法,正式将“思考过程”拉进了强化学习的优化闭环。 它让环境反馈不仅优化动作,也优化机器人行动前的“物理思考”。 不只练“手”更要修“脑”:如何让机器人强化模型的物理推理? 近日,至简动力、香港中文大学、北京大学计算机学院多媒体信息处理国家重点实验室,提出了一种面向机器人操作的自适应物理隐空间推理强化学习框架—— LaST-R1(Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning)。 它希望通过强化学习后训练,让具身大模型不仅学会生成动作,也学会在行动前,进行面向物理世界的隐空间推理。 △LaST-R1概览 (a) 不同于仅严格优化动作的 vanilla RL 基线方法, (b) 我们的方法利用 LAPO 联合优化自适应 latent CoT 与物理执行过程。通过连接认知推理与控制,LaST-R1 实现了 (c) 更快的收敛速度、更高的仿真成功率, 以及 (d) 更强的真实世界泛化能力。 与以往主要优化 action space (动作空间,即机器人所有可执行指令的集合)的具身大模型RL不同,LaST-R1的核心思想是: 机器人不应只从图像和指令直接预测下一步动作,而应先在 latent space (隐空间,可以理解为机器人大脑里的“隐性认知层”)中理解场景结构、物体关系和物理动态,再生成更稳定、精准的动作。 换句话说: LaST-R1不只优化机器人的“手”,也优化它的“脑”。 具体来看,LaST-R1构建了一个面向 latent reasoning-before-acting 策略的强化学习后训练框架,核心由三步组成: 1、物理隐空间推理建模(Physical Latent Reasoning) 传统具身大模型往往直接从observation生成action,动作前缺少可建模、可优化的物理推理过程。 LaST-R1在模型推理中引入 latent CoT :生成动作前,先在latent space中建模当前场景、物体关系和未来物理动态。 相比语言推理,latent reasoning更适合承载连续、高频、难以语言化的物理信息。 2、隐空间推理与动作生成的联合强化优化(Latent-to-Action Policy Optimization) 传统具身大模型RL多数只优化动作结果:哪个action带来更高reward,就强化哪个action。 LaST-R1提出 LAPO ,把环境奖励同时作用于 latent reasoning 和 action generation :成功轨迹不仅强化正确动作,也强化动作之前的“好推理”;失败轨迹不只修正动作结果,也反向调整内部物理推理空间。 让reward真正塑造动作背后的reasoning process。 3、自适应latent CoT推理机制(Adaptive Latent CoT) 不同任务决策需要不同长度的思考。 LaST-R1引入 adaptive latent CoT :简单状态下,模型可以快速结束推理并执行;拉拉链、擦花瓶、拧瓶盖等复杂接触式操作,则分配更长reasoning horizon。 在交互中学会:什么时候该多想,什么时候该立刻执行。 LaST-R1改变的是具身大模型后训练的优化对象:从只优化动作,转向同时优化动作背后的物理推理。 研究团队在仿真和真机环境中都进行了系统验证。 在仿真LIBERO benchmark上,LaST-R1仅依赖 1条轨迹 完成warm-up,随后通过在线RL优化,最终取得 99.9% 平均成功率,并相比Action-Only+PPO展现出更快收敛和