决策能力的结构阈值控制自我对弈强化学习的崩溃

2026-05-19 1 阅读 Arahan Kujur

arXiv:2605.16315v1 公告类型：新摘要：我们证明决策能力的阈值决定了自我对战强化学习智能体在不对称规则扰动下是否崩溃。在扑克变体、矩阵游戏、骰子游戏和多种学习算法中，消除所有积极影响的偶然决策会导致快速收敛到确定性利用吸引子，即接近最大损失的固定点。即使保留一个积极的偶然决策点也可以防止这种崩溃。冻结基线和固定对手控制证实该机制是在约束下的共同适应，而不是扰动本身。这种现象是时间不变的，在动作恢复时完全可逆，并在函数逼近下加剧。这些结果在零到达加权应急行动能力上建立了一个尖锐的阈值，通过测试领域中的到达加权能力不断扩展严重性。