智能AI
evening
1小时真机RL微调成功率破95%!HIL-ResRL:即插即用的VLA“外挂”神器
2026-06-24
1 阅读
量子位的朋友们
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400"> 1小时真机RL微调成功率破95%!HIL-ResRL:即插即用的VLA“外挂”神器 量子位的朋友们 2026-06-24 18:38:38 来源: 量子位 在具身智能的浪潮中,视觉-语言-动作(VLA)模型展现出了惊人的泛化能力。然而,当你真正尝试把这些模型部署到真实物理世界或工业产线上时,往往会被现实狠狠“打脸”。 为什么?因为目前的 VLA 模型主要依赖于模仿学习(Imitation Learning, 尤其是行为克隆 BC)。这种范式存在一个致命的硬伤:误差累积和分布偏移。在实验室里,机械臂抓取可能十拿九稳;但如果在产线上,目标物体的位置稍微偏离了演示数据的分布,机器人就会“懵圈”甚至做出危险动作。 虽然大家都在尝试用真实世界强化学习(Real-world RL,如近期的 π0.6∗)来让机器人“自我纠错”,但这些方法往往计算代价极其高昂,且与特定的模型架构深度绑定。对于追求快速部署的柔性制造业来说,这显然不够灵活。 今天我们要介绍的这篇来自华为云CloudRobo团队的论文,提出了一种优雅的解决方案——HIL-ResRL(基于人机协同残差强化学习的模型无关微调适配器)。它把基础 VLA 模型当成黑盒,不仅不挑模型,而且仅需1小时真机在线训练,就能让任务成功率突破95%! 论文信息:https://arxiv.org/abs/2606.22860 💡 核心思路:大模型负责“打底”,残差策略负责“纠偏” 面对复杂的工业级 VLA 模型,HIL-ResRL 并没有选择从头再训练或者整体微调,而是采用了一种极其轻量化的残差策略(Residual Policy)**结合人机协同的哲学,整体框图如下: 为了更形象地理解,我们可以打个比方——这就如同大人教小孩骑自行车: 基础动作(小孩已有的平衡能力 = Base Policy): 小孩在学习骑自行车的时候,其实已经是有一定的运动能力和平衡能力的。这就像框架中冻结的预训练 VLA 模型(如 Diffusion Policy 或 π0.5)。它们通过大量离线模仿学习,掌握了抓取移动等基础动作先验,负责输出一个基础动作方向 abase。 分布偏移与误差累积(刚上车的摔跤 = OOD): 但是,小孩刚上自行车放到一个新的场景时,很容易因为扶不稳把手导致摔跤。这对应着 VLA 模型在真实世界面临的分布偏移(Distribution Shift)与误差累积。刚预训练好的 VLA 模型放到新场景就会有一定的失败率,一旦偏离原本演示数据的分布,模型就会开始“胡乱抖动”或轨迹发散。 残差干预(大人的“扶一把” = Residual Action + HIL): 传统的做法是让小孩自己摔成百上千次直到学会,但这极不安全。HIL-ResRL 的做法是:大人(操作员)可以跟在小孩身边待命,在手把手歪掉的危急时刻轻轻扶一下,给出一个微小的修正。在框架中,这相当于训练一个极轻量的残差网络输出修正动作 ares,并在必要时引入大人的干预信号 aint。机器人最终执行的动作是基础动作加上修正:at=abase+ares。 极速收敛(数次纠正学会骑车 = ResRL): 就像小孩能在大人数次纠正的肌肉记忆中迅速学会骑自行车一样,机器人的残差网络会将人类的修正动作记录下来,只需学习“特定时刻怎么微调纠偏”,局部动力学修正的难度极低,从而通过离策略强化学习(SAC)实现极速收敛。 这种即插即用(Plug-and-play)的设计意味着它可以无缝集成到任何现成的 VLA 模型中,而无需获取其内部的权重或生成范式(无论是 Diffusion 还是 Flow Matching)。 🛡️ 人机协同(HIL):安全探索的终极保障 如果仅仅是加上残差网络让机器人自己去“试错”,不仅样本效率极低,而且随机探索很容易损坏昂贵的机械臂硬件。HIL-ResRL 的真正杀手锏在于将人类在环(Human-in-the-loop, HIL)深度融入到了强化学习的训练循环中,扮演着时刻护航的“大人”角色。 在执行过程中,人类操作员手里拿着一个 3D SpaceMouse 随时待命。当遇到以下情况时,人类会直接介入: 应对分布外(OOD)状态的“神级救场”: 当基础模型走到演示数据稀疏的区域开始“胡乱抖动”时,人类操作员只需给出一个微小的干预信号 aint,就能把机器人“拽”回正确的状态分布中。这种干预不需要人类重新演示完整的轨迹,极大地减轻了工作量。 最权威的“裁判”与紧急刹车: 对于工业级的高精度操作(例如插头插座的遮挡情况),纯视觉分类器很难判断是否真正插紧,人类可以直接提供最准确的“成功/失败”标签。同时,一旦机器人进入危险死锁状态,人类可以触发紧急重置,坚决防止策略从危险状态中学习。 聚焦困难样本(Hard-negative mining): 通过分析人类介入的数据,框架可以针对那些高失败率、被遮挡的极具挑战性的区域进行重点学习。 这些介入数据会和残差网络自我探索的数据混合在一起(采用 50/50 的相等比例采样),通过 SAC(Soft Actor-Critic)算法进行高效的强化学习优化。 📊 真机实验:效率与精度的双重震撼 为了验证 HIL-ResRL 的威力,研究团队在真实的 UR5e 机械臂上进行了测试,选取了三种典型的工业任务:抓取放置(Pick and Place)、垂直放置(Place Upright)以及高精度的多孔插网线/插头任务(Multiple Plug-in-Hole),实验结果非常令人振奋: 成功率飙升,打破性能瓶颈: 无论是使用 Diffusion Policy 还是 π0.5 作为基础模型,原本因为瓶颈状态只有 50%-80% 的成功率在经过 HIL-ResRL 短短 40 到 90 分钟的真机在线训练后,全部飙升至 90% 甚至 95% 以上! 吊打从头学习的RL基线: 与当前顶级的真机强化学习框架 HIL-SERL 相比,HIL-SERL 在需要同时控制位置和姿态的复杂任务(如垂直放置、插头任务)上极难收敛,而 HIL-ResRL 因为利用了基础模型的“动作先验”,只需要进行局部动力学修正,展现出了断层式的领先优势。 极高的安全性: 在“插网线”这种高接触任务中,纯自主的强化学习(ResRL)在一小时内触发了 15次 紧急急停,而 HIL-ResRL 在人类的适时护航下,仅触发了 2次! 🔥 彩蛋:多模态触觉/力觉反馈的无缝接入 对于“把插头精确插进插座”这种容易被机械爪严重遮挡视觉的高精度任务(Contact-rich tasks),HIL-ResRL 还展现了强大的扩展性。通过将六轴力/力矩传感器的信号作为多模态输入喂给残差网络,该任务的成功率从仅靠视觉的 50% 瞬间拔高到了惊人的 93%!残差策略学会了“通过触觉摸索”来纠正微小的错位,这正是工业装配