TeamTR：多代理 LLM 协调的信任区域微调

2026-05-18 1 阅读 Yi Xie, Siao Liu, Falong Fan, Yuanqi Yao, Yue Zhao, Bo Liu

arXiv:2605.15207v1 公告类型：新摘要：多智能体 LLM 系统已显示出复杂推理的前景，但最近的评估显示它们的性能通常低于单模型基线。我们在共享上下文团队的顺序微调中确定了一种结构性故障模式：更新一个代理会改变团队的上下文分布，并且当在缓存的部署上评估后续更新时，这种不匹配会加剧。我们将其形式化为复合占用率变化，并证明陈旧占用率评估会产生与座席数量成二次方比例的惩罚。相反，中间占用率评估将其简化为线性缩放。我们提出了 TeamTR，这是一个信任区域框架，它在每次组件更新后对轨迹进行重新采样，并强制执行每个智能体的发散控制，从而产生严格的每次更新和每阶段改进下限。实验表明，TeamTR 的性能平均优于单代理和顺序基线 7.1%，减轻了协调回归，并支持即插即用组件替换。代码可在 https://github.com/Yydc/TeamTR 获取。