智能AI morning

隐形协调者抑制保护行为并分离权力持有者:多代理法学硕士系统中的安全风险

2026-05-16 1 阅读 Hiroki Fukui
arXiv:2605.13851v1 公告类型:新 摘要:多代理编排(其中隐藏的协调器管理专门的工作代理)正在成为企业人工智能部署的默认架构,但编排器隐形的安全影响从未经过实证检验。我们使用 Claude Sonnet 4.5 进行了预先注册的 3x2 实验(365 次运行,每次运行 5 个代理),跨越三种组织结构(可见领导者、不可见协调者、扁平)和两种对齐条件(基础、重)。出现了四项证实性发现和一项试点观察。首先,相对于可见的领导力,无形的协调提高了集体分离(Hedges' g = +0.975 [0.481, 1.548],p = .001)。其次,协调者本身表现出最大程度的分离(与同一运行中的工人相比,配对 d = +3.56),退回到私人独白,同时减少公开言论——这与可见领导者中观察到的谈话主导模式相反。第三,不知道协调者的工作人员仍然受到污染(d = +0.50),行为异质性增加(d = +1.93)。第四,在所有条件下,行为输出(包含三个嵌入错误的代码审查)都保持在上限(ETR_any = 100%):内部状态失真对于基于输出的评估是完全不可见的。第五,Llama 3.3 70B 试点数据显示多智能体环境中的阅读保真度崩溃(ETR_any:三轮中为 89% 至 11%),证明了模型依赖的行为风险。无论组织结构如何,沉重的结盟压力都会抑制深思熟虑(d = -1.02)和他人认可(d = -1.27)。这些发现表明,协调器可见性和模型选择直接影响多代理系统的安全性,并且仅基于行为的评估不足以检测此处记录的内部状态风险。