当动作消失时：自我对战强化学习中的对抗性动作消除

2026-05-19 1 阅读 Arahan Kujur

arXiv:2605.16312v1 公告类型：新摘要：我们研究自我对弈强化学习中的对抗性动作掩蔽：攻击者有选择地从受害者的动作集中删除合法动作。与观察或行动扰动不同，移除会在智能体行动之前消除决策选项。在从 6 到 5,531 种信息状态和两个非扑克领域的扑克游戏中，学习屏蔽比随机屏蔽和学习扰动基线造成的损害要大得多。该攻击在 Q-learning、PPO、NFSP、神经 NFSP 和 DQN 受害者中持续存在；跨代理转账；通过自我对弈被放大；并且在长期的蒙面训练下没有表现出恢复。从机制上讲，对手的目标是高价值决策点，通过影响范围加权的应急行动能力 (CAC$_w$) 和价值加权的细化 CAC$_v$ 捕获。这些结果将动作可用性确定为自我博弈强化学习中独特的鲁棒性表面。