SAT：协调员的顺序代理调整免费即插即用多 LLM 培训并保证单调改进

arXiv:2605.05216v1 公告类型：新摘要：具有大量参数的大型语言模型 (LLM) 可以实现强大的性能，但部署成本往往过高。最近的工作探索使用更小、更高效的法学硕士团队，这些团队的表现可以与单个大型模型相匹配甚至优于单个大型模型。然而，联合更新多个代理会引入复合分布变化，使得训练过程中的协调和稳定性变得困难。我们通过引入顺序代理调优（SAT）来解决这个问题，这是一种无协调器的训练范例。 SAT 将团队表示为分解策略，并在代理上采用块坐标更新，从而无需中央控制器即可实现可扩展、分散的训练。具体来说，我们开发了一个序列感知的策略优势估计器，以不断发展的团队策略为条件，再加上隔离占用漂移的每个代理 KL 信任区域。从理论上讲，这个框架提供了两个关键的保证。首先，它确保单调改进，稳定训练过程。其次，它建立了可证明的即插即用不变性：任何代理都可以升级到更强的模型，而无需重新训练团队的其他成员，并正式保证性能界限的提高。根据经验，经过 SAT 训练的由 3 个 4B 智能体（总共 12B）组成的团队在 AIME24/25 基准测试中平均超过了更大的 Qwen3-32B 3.9%。我们通过交换两个 8B 代理来验证我们的即插即用理论，这将综合得分提高了 10.4%。我们在 https://github.com/Yydc/SAT-AAMAS 提供代码和证明附录