智能AI morning

GROW:将 GRPO 与开放世界 VLM 代理的状态动作建模结合起来

2026-05-21 1 阅读 Xiongbin Wu, Zhihao Luo, Shanzhe Lei, Lechao Zhang, Xuhong Wang, Jie Yang, Zhonglong Zheng, Yuanjie Zheng, Xin Tan, Wei Liu
arXiv:2605.20246v1 公告类型:新 摘要:最近,视觉语言模型(VLM)智能体在开放世界任务中取得了可喜的进展,其中成功的任务完成通常需要多次视觉感知和动作执行。然而,现有方法仍然主要依赖于专家演示的监督微调(SFT),而先进的强化学习(RL)算法,特别是组相对策略优化(GRPO),尚未有效地应用于这些任务中的多轮强化学习,因为标准GRPO需要完整的轨迹作为训练样本,这会导致过长的上下文和噪声。为了解决这个问题,我们提出了 GROW,一种用于开放世界 VLM 代理的 RL 框架,它将收集的轨迹分解为状态-动作样本,并计算这些样本之间的优势,而不是将完整轨迹视为单个实体。我们进一步提供了替代分析,表明即使分组样本以不同的本地状态为条件而不是相同的提示上下文,目标也可以在简化假设下保留 GRPO 的核心相对政策优化信号。对 800 多个 Minecraft 任务的实验表明,我们的方法实现了最先进的 (SOTA) 性能,证明了我们提出的针对开放世界 VLM 代理的 RL 框架的有效性。