人工智能代理之间的信任：测量形成、破坏和恢复，对治理多代理系统的影响

摘要

14923v1 Announce Type: new Abstract: As language-model agents increasingly work in teams, each agent must decide how much to trust its teammates。

trust the and verification than

2026-06-16 1 阅读约1分钟阅读 Yujiao Chen

arXiv:2606.14923v1 公告类型：新摘要：随着语言模型智能体越来越多地在团队中工作，每个智能体必须决定对队友的信任程度。然而，我们缺乏衡量人工智能代理之间信任的标准方法。我们提出了一种基于昂贵验证的行为措施。在合作生存游戏中，检查队友的工作会消耗资源，而相信错误的答案可能是致命的。相对于同一模型的无记忆版本，减少的验证提供了可观察的信任度量。使用这个框架，我们研究了六个前沿模型快照的信任形成、破坏和恢复。当与始终可靠的队友配对时，四个快照（Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1 和 Gemini 3.1 Pro）可减少大约 60-85% 的验证，而两个较小的快照几乎没有或没有显示这种调整。失败会扭转这种折扣，但模型的反应方式有所不同。一些人将注意力集中在罪魁祸首上，而另一些人则对整个团队变得更加谨慎。恢复速度比形成速度慢，并且集群故障比分散的相同数量的故障引起怀疑的时间要长得多。这些差异具有实际后果。形成信任的模型验证更少，决策更快，并在我们的环境中获得更高的回报。相比之下，持续的过度验证会导致优柔寡断，而不是安全。我们的结果表明，信任配置可以在部署之前进行测量，并表明校准而不是最大怀疑应该成为多智能体人工智能系统治理的核心问题。

订阅66必读