智能AI
morning
TeamTR:多代理 LLM 协调的信任区域微调
2026-05-18
1 阅读
Yi Xie, Siao Liu, Falong Fan, Yuanqi Yao, Yue Zhao, Bo Liu
arXiv:2605.15207v1 公告类型:新 摘要:多智能体 LLM 系统已显示出复杂推理的前景,但最近的评估显示它们的性能通常低于单模型基线。我们在共享上下文团队的顺序微调中确定了一种结构性故障模式:更新一个代理会改变团队的上下文分布,并且当在缓存的部署上评估后续更新时,这种不匹配会加剧。我们将其形式化为复合占用率变化,并证明陈旧占用率评估会产生与座席数量成二次方比例的惩罚。相反,中间占用率评估将其简化为线性缩放。我们提出了 TeamTR,这是一个信任区域框架,它在每次组件更新后对轨迹进行重新采样,并强制执行每个智能体的发散控制,从而产生严格的每次更新和每阶段改进下限。实验表明,TeamTR 的性能平均优于单代理和顺序基线 7.1%,减轻了协调回归,并支持即插即用组件替换。代码可在 https://github.com/Yydc/TeamTR 获取。