QPILOTS：针对流量策略的高效测试时 Q 转向

摘要

14801v1 Announce Type: new Abstract: Flow-matching and diffusion policies are expressive action generators, but optimizing them with temporal-difference reinforcement learning (RL) remains difficult。

the critic QPILOTS action policy

2026-06-16 1 阅读约1分钟阅读 Yifan Ruan, Chenyang Cao, Andreas Burger, Ali Pesaranghader, Kaveh Kamali, Jaehong Kim, Nandita Vijaykumar, Alan Aspuru-Guzik, Igor Gilitschenski, Nicholas Rhinehart

arXiv:2606.14801v1 公告类型：新摘要：流匹配和扩散策略是表达动作生成器，但使用时差强化学习（RL）对其进行优化仍然很困难。有效的策略提取需要利用批评家的动作梯度，但通过多步去噪过程直接反向传播该信号可能在数值上不稳定。现有方法通过丢弃梯度信息、将策略提炼为更简单的单步参与者或随着批评家的改进而反复微调去噪策略来解决这个问题。 We propose QPILOTS, a method that leaves the original policy unmodified and steers the denoising process at inference time.在每个去噪步骤中，我们首先将该中间状态投影为最终干净动作的估计，并计算那里的批评梯度，而不是在批评预测不可靠的嘈杂的中间动作上评估批评。我们引入两种变体：QPILOTS-U 使用快速单点近似，而 QPILOTS-M 通过学习的辅助网络绘制可微的后验样本。在标准的离线到在线 RL 基准测试中，QPILOTS 实现了最佳综合性能，在 50 项任务中达到了 90% 的平均成功率。我们还应用 QPILOTS 来引导大型、冻结、预训练的视觉语言动作 (VLA) 基础模型，在模拟中的六个操作任务中超越或匹配先前的推理时间方法。

订阅66必读