基于宏动作的多代理指令遵循值取消

2026-05-14 1 阅读 Wo Wei Lin, Ethan Rathbun, Enrico Marchesini Xiang Zhi Tan

arXiv:2605.12655v1 公告类型：新摘要：现实世界用例中的多智能体强化学习 (MARL) 可能需要适应外部自然语言指令，这些指令会中断正在进行的行为并与长期目标发生冲突。然而，当贝尔曼在指令上下文中更新耦合值估计时，指令上的条件奖励引入了一种基本的故障模式，从而在指令中断宏操作时导致值不一致。我们提出了指令合规性宏操作值校正（MAVIC），它通过校正传入的指令目标并恢复当前目标下的连续值来校正指令边界处的贝尔曼备份。与奖励塑造不同，MAVIC 修改引导目标本身，从而在统一策略内的随机指令切换下实现一致的价值估计。我们提供了理论分析和演员批评家实施，并表明 MAVIC 实现了高度的指令合规性，同时在日益复杂的协作多智能体环境中保持基本任务性能。