Eagle 3.1:EAGLE 团队、vLLM 团队和 TorchSpec 团队之间的协作

2026-05-26 1 阅读 berlianta
EAGLE 系列(包括 EAGLE 1、EAGLE 2 和 EAGLE 3)已成为研究和生产系统中最广泛采用和实际部署的推测解码算法系列之一。今天,EAGLE 团队、vLLM 团队和 TorchSpec 团队很高兴联合推出 EAGLE 3.1——在推测解码的稳健性、效率和可部署性方面向前迈出了一大步。 EAGLE 3.1 创新 虽然推测解码在受控设置中表现良好,但在不同的聊天模板、长上下文输入或分发外系统提示下,性能通常会下降。 EAGLE 团队将这种脆弱性归因于一种我们称之为注意力漂移的现象——随着推测深度的增加,起草者逐渐将注意力从接收器令牌转移到自己生成的令牌上。我们发现了两个根本问题。首先,随着高层隐藏状态主导起草者输入,融合输入表示变得越来越不平衡。其次,由于未归一化的残差路径,隐藏状态量级在推测步骤中不断增长。总之,这些影响使起草者在更深的推测深度上逐渐变得不稳定。图 1:EAGLE 3 与 EAGLE 3.1 架构比较。 EAGLE 3.1 在每个目标隐藏状态之后添加 FC 归一化,并将归一化后隐藏状态输入到下一个解码步骤。为了解决这个问题,EAGLE 3.1 引入了两个关键的架构改进: 每个目标隐藏状态之后和 FC 层之前的 FC 归一化 将后规范隐藏状态馈送到下一个解码步骤 直观上,后规范设计使该方法的行为更像是跨解码步骤递归调用绘图器,而不是简单地向目标模型附加附加层。这些更改显着提高了跨部署场景的稳健性。与 EAGLE 3 相比,EAGLE 3.1 展示了: 更好的训练时间到推理时间外推 更强的长上下文稳健性 对聊天模板和系统提示变化的弹性更高 在不同的服务环境中更稳定的接受长度 在长上下文工作负载中,EAGLE 3.1 的接受长度比 EAGLE 3 长 2 倍。使用 TorchSpec 进行 EAGLE 3.1 训练 TorchSpec 现在为 EAGLE 3.1 和未来的推测解码算法提供高效的训练支持。通过降低训练开销和简化实验工作流程,TorchSpec 有助于加速下一代推测解码研究和部署的迭代和探索。基于 TorchSpec 和 vLLM,我们还为 Kimi K2.6 训练并开源了 EAGLE 3.1 草案模型:https://huggingface.co/lightseekorg/kimi-k2.6-eagle3.1-mla 该模型作为在真实服务模型上部署 EAGLE 3.1 的示例,其中包含 TorchSpec 训练和 vLLM 服务支持。 EAGLE 3.1 与 vLLM 集成 EAGLE 3.1 作为现有 EAGLE 3 实施的配置驱动扩展进入 vLLM。集成包括: FC 规范化支持 后规范隐藏状态反馈 删除围绕目标隐藏状态的硬编码假设 同时,完全保留了与现有 EAGLE 3 检查点的向后兼容性。因此,EAGLE 3.1 草案模型可以直接通过相同的推测解码代码路径插入,例如: vllmserve nvidia/Kimi-K2.6-NVFP4 \ --trust-remote-code \ --tensor-parallel-size 4 \ --tool-call-parser kimi_k2 \ --enable-auto-tool-choice \ --reasoning-parser kimi_k2 \ --attention-backend tokenspeed_mla \ --speculative-config '{"model":"lightseekorg/kimi-k2.6-eagle3.1-mla","method":"eagle3","num_speculative_tokens":3}' \ --language-model-only 这使得生产 vLLM 服务中的草稿模型升级变得顺利和容易。该支持已合并到 vLLM 当前的主分支中,并将通过 vLLM 的夜间版本以及即将发布的 v0.22.0 版本提供。作为早期数据点,我们在 SPEED-Bench 编码数据集上使用 vLLM(TP=4、GB200、非 disagg)对 Kimi-K2.6-NVFP4 上的 Kimi K2.6 EAGLE 3.1 草案模型进行了基准测试。 EAGLE 3.1 在并发数为 1 时提供了 2.03 倍的每用户输出吞吐量,并且随着并发规模的增加,加速仍然有意义(C=4 时为 1.71 倍,C=16 时为 1.66 倍)。图 2:Kimi-K2.6-NVFP4 上的每用户输出吞吐量 (TPS),采用 vLLM,TP=4,SPEED-Bench 编码为 GB200。 EAGLE 3.1-MLA 与无规格基线。跨生态系统的开源协作 EAGLE 团队、vLLM 团队、TorchSpec 团队之间的合作代表了算法研究、系统优化和培训基础设施之间开源协作的一个强有力的例子。 EAGLE 团队继续推进推测性解码算法,vLLM 帮助将这些创新大规模地引入生产推理系统,而 TorchSpec 可以为未来的推测性解码算法提供高效的训练和快速实验。我们希望共同继续提高推测解码和