智能AI
morning
代理岛:多代理游戏的饱和和抗污染基准
2026-05-08
1 阅读
Connacher Murphy
arXiv:2605.04312v1 公告类型:新 摘要:静态能力基准受到饱和和污染的影响,使得很难跟踪能力随时间的进展。我们引入了 Agent Island,这是一个多人模拟环境,其中语言模型代理在代理间合作、冲突和说服的游戏中竞争。环境产生了一个动态基准,旨在减轻饱和度和污染;在这场赢家通吃的游戏中,新模型总是能够超越当前的领先者,并且智能体与其他自适应智能体竞争,而不是面对固定的任务集。我们使用贝叶斯 Plackett-Luce 模型对玩家进行排名,使我们能够量化玩家技能的不确定性。在涉及 49 个独特模型的 999 场游戏中,openai/gpt-5.5 以 5.64 的后验平均技能领先于同行,而排名第二的模型 openai/gpt-5.2 为 3.10,排名第三的模型 openai/gpt-5.3-codex 为 2.86。我们将游戏日志作为数据集发布,用于分析模型行为。例如,我们调查了最后一轮投票中相同提供商的偏好,发现模型为 8.3 个百分点。与来自其他提供商的决赛入围者相比,更有可能支持同一提供商的决赛入围者。这种偏好在各个提供商之间并不统一:在单独估计的提供商中,OpenAI 模型的效果最强,而 Anthropic 模型的效果最弱。