智能AI morning

SAT:协调员的顺序代理调整免费即插即用多 LLM 培训并保证单调改进

2026-05-08 1 阅读 Yi Xie, Yangyang Xu, Yi Fan, Bo Liu
arXiv:2605.05216v1 公告类型:新 摘要:具有大量参数的大型语言模型 (LLM) 可以实现强大的性能,但部署成本往往过高。最近的工作探索使用更小、更高效的法学硕士团队,这些团队的表现可以与单个大型模型相匹配甚至优于单个大型模型。然而,联合更新多个代理会引入复合分布变化,使得训练过程中的协调和稳定性变得困难。我们通过引入顺序代理调优(SAT)来解决这个问题,这是一种无协调器的训练范例。 SAT 将团队表示为分解策略,并在代理上采用块坐标更新,从而无需中央控制器即可实现可扩展、分散的训练。具体来说,我们开发了一个序列感知的策略优势估计器,以不断发展的团队策略为条件,再加上隔离占用漂移的每个代理 KL 信任区域。从理论上讲,这个框架提供了两个关键的保证。首先,它确保单调改进,稳定训练过程。其次,它建立了可证明的即插即用不变性:任何代理都可以升级到更强的模型,而无需重新训练团队的其他成员,并正式保证性能界限的提高。根据经验,经过 SAT 训练的由 3 个 4B 智能体(总共 12B)组成的团队在 AIME24/25 基准测试中平均超过了更大的 Qwen3-32B 3.9%。我们通过交换两个 8B 代理来验证我们的即插即用理论,这将综合得分提高了 10.4%。我们在 https://github.com/Yydc/SAT-AAMAS 提供代码和证明附录