RankQ：通过自监督行动排名进行线下到线上的强化学习

arXiv:2605.11151v1 公告类型：新摘要：离线到在线强化学习（RL）通过利用在线交互之前预先收集的数据集来提高样本效率。然而，一个关键的挑战是在数据集覆盖范围有限的大型状态行动空间中学习准确的批评者。为了减轻价值高估带来的有害更新，先前的方法通过降低相对于数据集操作的分布外（OOD）操作的权重来强加悲观主义。虽然有效，但它本质上充当了行为克隆锚，并且当数据集操作不理想时，可能会阻碍下游在线策略的改进。我们提出了 RankQ，一种离线到在线的 Q 学习目标，它通过自我监督的多项排名损失来增强时间差异学习，以强制执行结构化的动作排序。通过学习相对的动作偏好而不是统一惩罚未见过的动作，RankQ 塑造了 Q 函数，使得动作梯度指向更高质量的行为。在稀疏奖励 D4RL 基准中，RankQ 的性能可与之前的 7 种方法相媲美或更好。在基于视觉的机器人学习中，RankQ 能够在低数据范围内对预训练的视觉语言动作 (VLA) 模型进行有效的离线到在线微调，与次佳方法相比，平均模拟成功率高出 42.7%。在高数据设置中，RankQ 比次佳方法将模拟性能提高了 13.7%，并实现了强大的模拟到真实的转换，相对于 VLA 的初始性能，将现实世界的立方体堆叠成功率从 43.1% 提高到 84.7%。