KV 共享、MHC 和压缩注意力

2026-05-19 1 阅读 gmays
LLM 架构的最新发展:KV 共享、mHC 和从 Gemma 4 到 DeepSeek V4 的压缩注意力,新的开放权重 LLM 如何降低长上下文成本 Sebastian Raschka 博士 2026 年 5 月 16 日 221 7 22 分享 经过短暂的家庭休息后,我很高兴能回来赶上忙碌的几周开放权重 LLM 发布。让我印象深刻的是,新的架构在多大程度上关注长上下文效率。随着推理模型和代理工作流程保留更多令牌(时间更长),KV 缓存大小、内存流量和注意力成本很快成为主要限制,LLM 开发人员正在添加越来越多的架构技巧来降低这些成本。我想看的主要例子是 Gemma 4 中的 KV 共享和每层嵌入、Laguna XS.2 中的逐层注意力预算、ZAYA1-8B 中的压缩卷积注意力以及 DeepSeek V4 中的 mHC 加上压缩注意力。大多数这些更改看起来像是我的架构图中的小调整,但其中一些是非常复杂的设计更改,值得更详细的讨论。图 1. 最近主要开放重量版本(4 月至 5 月)的 LLM 架构图。您可以在我的法学硕士建筑图库中找到图像和更多详细信息。并未显示所有型号尺寸; Qwen3.6包括27B和35B-A3B变体,ZAYA1由8B模型表示(省略ZAYA1-base和ZAYA1-reasoning-base)。本文更详细地介绍了虚线框中的架构。请注意,本文是关于架构设计的,因此我将主要跳过数据集混合、训练计划、训练后细节、强化学习配方、基准表和产品比较。即使范围较窄,仍有很多内容需要涵盖。而且,和往常一样,这篇文章的长度比我预期的要长,所以我将重点关注变压器块、残差流、KV 缓存或注意力计算内部的变化。另请注意,我只讨论那些有趣的(新的)设计选择主题,而我在其他地方还没有讨论过。该列表包括: Gemma 4 中的 KV 共享和每层嵌入 ZAYA1 中的压缩卷积注意力 Laguna XS.2 mHC 中的注意力预算和 DeepSeek V4 中的压缩注意力 先前主题 在进入新部分之前,我将参考之前的两篇文章。第一个提供了有关最新 MoE 模型、路由专家、活动参数和模型大小比较的更广泛的架构背景。第二个涵盖了下面反复出现的注意力背景,包括 MHA、MQA、GQA、MLA、滑动窗口注意力、稀疏注意力和混合注意力设计。大法学硕士架构比较 Sebastian Raschka,博士 · 2025 年 7 月 19 日 最后更新:2026 年 4 月 2 日(在第 23 节中添加了 Gemma 4) 阅读全文 现代法学硕士中注意力变体的视觉指南 Sebastian Raschka,博士 · 3 月 22 日 我原本计划写一篇关于 DeepSeek V4 的文章。由于它还没有发布,我利用这段时间做了一些已经在我的清单上一段时间的事情,即收集、组织和完善我在过去几年中涵盖的不同的 LLM 架构。阅读全文 我还将其中一些解释转化为 LLM Architecture Gallery 中简短的独立教程页面。例如,读者可以找到 GQA、MLA、滑动窗口注意力、DeepSeek 稀疏注意力、MoE 路由以及从相应模型卡和概念标签链接的其他概念的紧凑解释。 1. 跨层重用 KV 张量来缩小缓存 (Gemma 4) 在本次架构进步和调整之旅中,我们将回到 4 月初,当时 Google 发布了新的开放权重 Gemma 4 模型套件。它们分为 3 大类:用于移动和小型本地(嵌入式)设备(又名 IoT)的 Gemma 4 E2B 和 E4B 模型、针对高效本地推理进行优化的 Gemma 4 26B 专家混合 (MoE) 模型以及用于实现最高质量和更方便的后训练的 Gemma 4 31B 密集模型(因为 MoE 的使用比较棘手)。 图 2:Gemma 4 架构图。 E2B 和 E4B 变体中的第一个小架构调整是它们采用共享 KV 缓存方案,其中后面的层重用早期层的键值状态,以减少长上下文内存和计算。这种 KV 共享不是 Gemma 4 发明的。例如,参见 Brandon 等人。 ,“通过跨层注意力减少 Transformer 键值缓存大小”(NeurIPS 2024)。但这是我看到应用这个概念的第一个流行架构。 (跨层注意力不要与交叉注意力混淆。)在进一步解释 KV 共享之前,我们先简单谈谈动机。正如我最近几个月所写和谈论的那样,LLM 架构设计的近期主要主题之一是减少 KV 缓存大小。反过来,减少 KV 缓存大小的动机是减少所需的内存,这