代理岛：多代理游戏的饱和和抗污染基准

arXiv:2605.04312v1 公告类型：新摘要：静态能力基准受到饱和和污染的影响，使得很难跟踪能力随时间的进展。我们引入了 Agent Island，这是一个多人模拟环境，其中语言模型代理在代理间合作、冲突和说服的游戏中竞争。环境产生了一个动态基准，旨在减轻饱和度和污染；在这场赢家通吃的游戏中，新模型总是能够超越当前的领先者，并且智能体与其他自适应智能体竞争，而不是面对固定的任务集。我们使用贝叶斯 Plackett-Luce 模型对玩家进行排名，使我们能够量化玩家技能的不确定性。在涉及 49 个独特模型的 999 场游戏中，openai/gpt-5.5 以 5.64 的后验平均技能领先于同行，而排名第二的模型 openai/gpt-5.2 为 3.10，排名第三的模型 openai/gpt-5.3-codex 为 2.86。我们将游戏日志作为数据集发布，用于分析模型行为。例如，我们调查了最后一轮投票中相同提供商的偏好，发现模型为 8.3 个百分点。与来自其他提供商的决赛入围者相比，更有可能支持同一提供商的决赛入围者。这种偏好在各个提供商之间并不统一：在单独估计的提供商中，OpenAI 模型的效果最强，而 Anthropic 模型的效果最弱。