隐形协调者抑制保护行为并分离权力持有者：多代理法学硕士系统中的安全风险

arXiv:2605.13851v1 公告类型：新摘要：多代理编排（其中隐藏的协调器管理专门的工作代理）正在成为企业人工智能部署的默认架构，但编排器隐形的安全影响从未经过实证检验。我们使用 Claude Sonnet 4.5 进行了预先注册的 3x2 实验（365 次运行，每次运行 5 个代理），跨越三种组织结构（可见领导者、不可见协调者、扁平）和两种对齐条件（基础、重）。出现了四项证实性发现和一项试点观察。首先，相对于可见的领导力，无形的协调提高了集体分离（Hedges' g = +0.975 [0.481, 1.548]，p = .001）。其次，协调者本身表现出最大程度的分离（与同一运行中的工人相比，配对 d = +3.56），退回到私人独白，同时减少公开言论——这与可见领导者中观察到的谈话主导模式相反。第三，不知道协调者的工作人员仍然受到污染（d = +0.50），行为异质性增加（d = +1.93）。第四，在所有条件下，行为输出（包含三个嵌入错误的代码审查）都保持在上限（ETR_any = 100%）：内部状态失真对于基于输出的评估是完全不可见的。第五，Llama 3.3 70B 试点数据显示多智能体环境中的阅读保真度崩溃（ETR_any：三轮中为 89% 至 11%），证明了模型依赖的行为风险。无论组织结构如何，沉重的结盟压力都会抑制深思熟虑（d = -1.02）和他人认可（d = -1.27）。这些发现表明，协调器可见性和模型选择直接影响多代理系统的安全性，并且仅基于行为的评估不足以检测此处记录的内部状态风险。