量子青蛙：量子时间合作博弈中的紧急合作和难度扩展

arXiv:2605.23930v1 公告类型：新摘要：我们介绍 \emph{Quantum Frog}，这是一款基于新颖的 \emph{量子化时间} 机制的两人合作游戏，其中环境仅在玩家行动时才会前进。受到经典街机游戏 Frogger 的启发，Quantum Frog 需要两只青蛙穿过 8$\times$8 的交通网格并一起到达远端。我们使用强化学习（RL）作为分析镜头来回答四个设计问题：（1）游戏难度如何随着流量密度而变化，（2）最佳的单智能体策略是什么以及为什么，（3）独立和合作的两个智能体游戏之间的合作差距有多大，以及（4）当智能体被激励合作时会出现什么联合策略？我们通过五个逐步升级的阶段来训练智能体：表格 Q 学习、深度 Q 网络 (\DQN)、独立 \DQN~(\IDQN) 和多智能体近端策略优化（\MAPPO\ 以及集中式批评器），并针对一到六辆车的交通密度对每个阶段进行评估。我们的主要发现是：（i）量化时间机制使得 \emph{rush 策略}（每一步直接向上移动）普遍最优，因为暴露在交通中的时间被最小化； (ii) 添加一个不协调的第二个玩家比将单个专家玩家的流量增加六倍更困难； (iii) 合作训练相对于独立智能体恢复了 +32--34 个百分点的联合成功率，并将情节长度从 $\sim$90 减少到 $\sim$6 步；（iv）新兴的合作策略是同步冲刺，而不是复杂的位置协调，这表明仅共享激励就足以在时间关键的合作任务中协调代理。这些发现为量子青蛙的商业设计提供了具体的、基于经验的指导，并为环境力学在塑造多智能体学习动态中的作用提供了更广泛的见解。

订阅66必读