KV 共享、MHC 和压缩注意力

LLM 架构的最新发展：KV 共享、mHC 和从 Gemma 4 到 DeepSeek V4 的压缩注意力，新的开放权重 LLM 如何降低长上下文成本 Sebastian Raschka 博士 2026 年 5 月 16 日 221 7 22 分享经过短暂的家庭休息后，我很高兴能回来赶上忙碌的几周开放权重 LLM 发布。让我印象深刻的是，新的架构在多大程度上关注长上下文效率。随着推理模型和代理工作流程保留更多令牌（时间更长），KV 缓存大小、内存流量和注意力成本很快成为主要限制，LLM 开发人员正在添加越来越多的架构技巧来降低这些成本。我想看的主要例子是 Gemma 4 中的 KV 共享和每层嵌入、Laguna XS.2 中的逐层注意力预算、ZAYA1-8B 中的压缩卷积注意力以及 DeepSeek V4 中的 mHC 加上压缩注意力。大多数这些更改看起来像是我的架构图中的小调整，但其中一些是非常复杂的设计更改，值得更详细的讨论。图 1. 最近主要开放重量版本（4 月至 5 月）的 LLM 架构图。您可以在我的法学硕士建筑图库中找到图像和更多详细信息。并未显示所有型号尺寸； Qwen3.6包括27B和35B-A3B变体，ZAYA1由8B模型表示（省略ZAYA1-base和ZAYA1-reasoning-base）。本文更详细地介绍了虚线框中的架构。请注意，本文是关于架构设计的，因此我将主要跳过数据集混合、训练计划、训练后细节、强化学习配方、基准表和产品比较。即使范围较窄，仍有很多内容需要涵盖。而且，和往常一样，这篇文章的长度比我预期的要长，所以我将重点关注变压器块、残差流、KV 缓存或注意力计算内部的变化。另请注意，我只讨论那些有趣的（新的）设计选择主题，而我在其他地方还没有讨论过。该列表包括： Gemma 4 中的 KV 共享和每层嵌入 ZAYA1 中的压缩卷积注意力 Laguna XS.2 mHC 中的注意力预算和 DeepSeek V4 中的压缩注意力先前主题在进入新部分之前，我将参考之前的两篇文章。第一个提供了有关最新 MoE 模型、路由专家、活动参数和模型大小比较的更广泛的架构背景。第二个涵盖了下面反复出现的注意力背景，包括 MHA、MQA、GQA、MLA、滑动窗口注意力、稀疏注意力和混合注意力设计。大法学硕士架构比较 Sebastian Raschka，博士 · 2025 年 7 月 19 日最后更新：2026 年 4 月 2 日（在第 23 节中添加了 Gemma 4）阅读全文现代法学硕士中注意力变体的视觉指南 Sebastian Raschka，博士 · 3 月 22 日我原本计划写一篇关于 DeepSeek V4 的文章。由于它还没有发布，我利用这段时间做了一些已经在我的清单上一段时间的事情，即收集、组织和完善我在过去几年中涵盖的不同的 LLM 架构。阅读全文我还将其中一些解释转化为 LLM Architecture Gallery 中简短的独立教程页面。例如，读者可以找到 GQA、MLA、滑动窗口注意力、DeepSeek 稀疏注意力、MoE 路由以及从相应模型卡和概念标签链接的其他概念的紧凑解释。 1. 跨层重用 KV 张量来缩小缓存 (Gemma 4) 在本次架构进步和调整之旅中，我们将回到 4 月初，当时 Google 发布了新的开放权重 Gemma 4 模型套件。它们分为 3 大类：用于移动和小型本地（嵌入式）设备（又名 IoT）的 Gemma 4 E2B 和 E4B 模型、针对高效本地推理进行优化的 Gemma 4 26B 专家混合 (MoE) 模型以及用于实现最高质量和更方便的后训练的 Gemma 4 31B 密集模型（因为 MoE 的使用比较棘手）。图 2：Gemma 4 架构图。 E2B 和 E4B 变体中的第一个小架构调整是它们采用共享 KV 缓存方案，其中后面的层重用早期层的键值状态，以减少长上下文内存和计算。这种 KV 共享不是 Gemma 4 发明的。例如，参见 Brandon 等人。，“通过跨层注意力减少 Transformer 键值缓存大小”（NeurIPS 2024）。但这是我看到应用这个概念的第一个流行架构。（跨层注意力不要与交叉注意力混淆。）在进一步解释 KV 共享之前，我们先简单谈谈动机。正如我最近几个月所写和谈论的那样，LLM 架构设计的近期主要主题之一是减少 KV 缓存大小。反过来，减少 KV 缓存大小的动机是减少所需的内存，这

订阅66必读