AI 协作重磅突破！斯坦福英伟达联手消除AI沟通内耗，推理速度暴涨 2.4 倍

想象一个场景：你让三个AI助手协作完成一道数学题。传统做法是——第一个AI把解题思路“写”出来，第二个AI“读”完再写新的思路，第三个AI再“读”再“写”。这个过程，就像三个人轮流用对讲机传递信息，每次都要先把脑子里的想法“翻译”成语言，对方再把语言“翻译”回想法。慢不慢？慢。费不费？费。更要命的是，这种“翻译”过程会丢失信息——你脑子里想的，和你说出来的，往往不是一回事。这就是当前多智能体AI系统面临的核心困境： “语言税”。而最近，UIUC、斯坦福、英伟达、MIT联合提出了一种新思路——RecursiveMAS。它让AI们跳过“说话”这一步，直接用“思维”沟通。在实测中，推理速度提升了2.4倍，Token消耗削减了75%。（研究指路：https://arxiv.org/abs/2604.25917） AI开会的困境：效率都浪费在了“说话”上过去两年，多智能体系统已经成为AI领域最热门的研究方向之一。从OpenAI的Swarm到微软的AutoGen，从LangGraph到CrewAI，各家都在探索如何让多个AI协同工作以解决单个模型无法独立完成的复杂任务。然而，在这些系统中，多个智能体的协作效率始终被一个基本假设所制约——智能体之间必须通过自然语言文本来交流。当你让一个“数学专家”和一个“代码审查员”协作时，整个流程看起来很“合理”，但拆解开来会发现问题很多：每一次信息传递，都伴随着双重转换：内部思维→文字→内部思维。这个过程消耗的token不仅是金钱，更是宝贵的计算资源和时间。更关键的是，这种“写出来再读进去”的过程会丢失信息——模型在文本解码时被压缩进文字的丰富语义，下一个模型重新解码时已经无法完全还原。在一个包含五个Agent的工作流中，文本编解码的时间开销往往占到总延迟的60%以上。更让人头疼的是，这种范式始终缺乏一个清晰的“旋钮”来做系统性优化——增加更多智能体？边际效益递减，且通信开销指数级增长。增加上下文窗口？Token成本爆炸。增加模型参数？单个Agent变强了，但协作效率并没有本质提升——类似于给一群人每人配了更好的对讲机，但他们依然要逐个念文字，沟通方式没变，就算每个人都更聪明了，整体效率也无法有突破。行业内的应对方案，无论是提示词工程还是LoRA微调，都只能在一定程度上缓解症状，无法根治这个根本性的架构问题。 RecursiveMAS：用“心灵感应”替代“对讲机” RecursiveMAS的核心思路非常巧妙：既然语言是瓶颈，那就不用语言。它借鉴了递归语言模型（Recursive Language Model）的思想。在传统语言模型中，数据从第一层流向最后一层，线性前进，层数越多，参数越多；而递归语言模型反其道而行——不增加层数，而是把同一组层反复循环使用，让数据在层之间来回“打转”。数据每经过一次这组层，就相当于多了一轮“思考”，推理深度得以加深，但参数量却不需要增加。 RecursiveMAS把这个思路从“单模型内部”扩展到了“多智能体系统”：每个智能体就像递归语言模型中的一层，它们不再生成文字，而是传递“思想”——一种连续的、存在于潜空间（latent space）中的向量表征。研究者们用了一个诗意的比喻：“agents communicating telepathically as a unified whole”——智能体们像心灵感应一样作为一个整体协作。具体来说，Agent A1处理后把自己的隐表征传给Agent A2，A2处理后再传给A3……直到最后一个Agent处理完，其隐输出又被直接回传给A1，开启新一轮的递归迭代。整个过程完全在隐空间中进行，只有到了最后一轮的最后一个Agent，才将最终的隐表征解码为文本输出。这就好比一群专家围坐一桌，不用说话，不用写笔记，每个人只需默默思考，然后直接把自己脑中的“思维成果”传给下一个人——整个过程既安静又高效。图：RecursiveMAS 架构示意——多Agent通过嵌入空间实现闭环递归协作（来源：arXiv）这个系统的关键组件叫做 RecursiveLink ，一个轻量级的两层残差模块，负责把一个模型的隐层表征保留并转换，然后传递到下一个模型的嵌入空间。语言模型最后一层的隐状态，实际上已经编码了丰富的语义推理信息，RecursiveLink要做的，就是把这些高维信息完整地“搬”过去，而不是先翻译成文字再解读。它分为内外两个版本：图：递归学习过程——内部链接与外部链接协同训练（来源：arXiv）训练策略上，RecursiveMAS有一个精妙的设计：主干模型权重完全冻结，只需训练RecursiveLink模块。这和LoRA（低秩适配）的精神有相似之处，但RecursiveLink更轻量：整个系统只需更新约1300万个参数，仅占总可训练参数的0.31%。峰值GPU显存需求在所有对比方法中最低，训练成本比全量微调降低50%以上。你可以把它理解为一个“轻量级转接头”，直接插在现有Agent生态上，无需从头训练新模型。如果多个Agent基于同一个基座模型（比如都用Qwen），它们甚至可以共享同一份模型权重，进一步节省显存。训练分两阶段进行：内层循环热身：各个智能体独立训练自己的Inner RecursiveLink，让它们学会在潜空间里“想问题”而不是“写问题”。这个阶段可以并行进行，就像让每个人先练习“内心独白”。外层循环训练：将所有智能体串联成完整的递归链路，以最终文本输出质量为优化目标，通过共享梯度联合优化所有RecursiveLink。这个阶段解决的是“credit assignment”问题——如何把最终结果的成败，准确归因到每个Agent的贡献。这种分阶段策略避免了“一步到位”可能带来的训练不稳定问题。研究者们在理论上证明了递归训练的梯度能够保持稳定，不会出现RNN中常见的梯度爆炸或消失问题，同时在运行时复杂度上也优于传统文本型MAS。实测效果：精度、速度、成本“三杀” 理论说得再好，终归要用数据说话。研究团队在涵盖数学、科学与医学、代码生成、搜索问答等领域的9个主流基准测试和4种协作模式（顺序推理、混合专家、知识蒸馏、协商式工具调用）上进行了全面评估。实验使用的开源模型阵容相当“ 豪华 ”——Qwen、Llama-3、Gemma3、Mistral，这些模型被分配了不同角色，组成了多种协作模式。对比基线阵容同样硬核：LoRA微调、全量微调（SFT）、Mixture-of-Agents、TextGrad、LoopLM，以及使用相同递归循环结构但强制文本通信的Recursive-TextMAS。最后这个对照尤其关键——它证明了 RecursiveMAS的优势确实来自“跳过文本解码”，而非来自递归结构本身。所有对比都在相同训练预算下进行，公平公正。 RecursiveMAS 核心性能指标结果显示，RecursiveMAS在所有指标上都实现了一致性提升：精度：平均准确率提升8.3%，在AIME2025数学竞赛上比TextGrad高出18.1%，在AIME2026上高出13%。跳过文本解码不仅没有损失信息，反而让模型保留了更丰富的隐层语义—

订阅66必读