多智能体人工智能中的隐藏联盟：来自内部表示的光谱诊断

arXiv:2605.06696v1 公告类型：新摘要：交互的人工智能代理的集合可以形成联盟，创建对人工智能安全和协调至关重要的新兴群体级组织。然而，仅观察代理行为通常不足以区分真正的信息耦合和虚假相似性，因为在任何明显的行为变化明显之前，可能会在内部表征层面形成相应的联盟。在这里，我们介绍了一种从多智能体系统的内部神经表示中检测联盟结构的实用方法。该方法从代理的隐藏状态构建成对的互信息图，并应用谱分区来识别最显着的联盟边界。我们在两个领域验证了该方法。首先，在多智能体强化学习环境中，该方法成功地恢复了编程的层次和动态联盟结构，并正确地拒绝了由于没有信息耦合的行为协调而产生的误报。其次，使用大型语言模型，该方法可以识别描述性提示所暗示的联盟结构，跟踪动态团队重新分配，并揭示一个表征层次结构，其中显式标签主导了冲突的交互模式。在这两种设置中，恢复的分区揭示了标量跨代理互信息度量无法区分的子组组织。结果表明，通过谱划分分析隐藏状态互信息为识别代表性联盟提供了可扩展的诊断，为监控分布式人工智能系统中的紧急结构提供了有价值的工具。