DiffusionGemma：文本生成速度加快 4 倍

DiffusionGemma：文本生成速度提高 4 倍 2026 年 6 月 10 日 · 分享 x.com Facebook LinkedIn 邮件复制链接我们最新的开放实验模型在专用 GPU 上的推理速度提高了 4 倍，并为探索速度关键的交互式本地工作流程打开了大门。 Brendan O'Donoghue 研究科学家 Sebastian Flennerhag 研究科学家 Share x.com Facebook LinkedIn LinkedIn Mail 复制链接今天，我们将介绍 DiffusionGemma，这是一种实验性开放模型，用于探索文本扩散，这是一种异常快速的文本生成方法。这个 26B 专家混合 (MoE) 模型在 Apache 2.0 许可证下发布，超越了典型自回归大型语言模型 (LLM) 的逐个令牌的顺序处理。相反，它同时生成整个文本块，在 GPU 上生成文本的速度提高了 4 倍。 DiffusionGemma 基于 Gemma 4 系列行业领先的每参数智能和尖端的 Gemini Diffusion 研究而构建，集成了新颖的扩散头，旨在最大限度地提高生成速度。虽然自回归 Gemma 4 模型仍然是高质量生产输出的标准，但 DiffusionGemma 专为探索速度关键的交互式本地工作流程（例如内联编辑、快速迭代和生成非线性文本结构）的研究人员和开发人员而设计。为开发人员释放新价值构建实时交互式人工智能应用程序的开发人员经常会遇到本地推理的延迟瓶颈。 DiffusionGemma 直接解决了这些挑战，并做出了一些关键的权衡：极快的推理：通过将解码瓶颈从内存带宽转移到计算，DiffusionGemma 在专用 GPU 上生成速度高达 4 倍的令牌输出。（单个 NVIDIA H100 上每秒超过 1000 个令牌，NVIDIA GeForce RTX 5090 上每秒超过 700 个令牌）。 1 可访问的硬件占用空间：DiffusionGemma 作为总大小为 26B 的专家混合 (MoE) 模型运行，在推理期间仅激活 3.8B 参数，在量化时可以轻松满足高端专用消费类 GPU 的 18GB VRAM 限制。双向注意力：与每个前向传递并行生成 256 个令牌，允许每个令牌关注所有其他令牌。这为非线性领域（例如内联编辑、代码填充、氨基酸序列或数学图表）提供了显着的优势。智能自我纠正：模型迭代地完善自己的输出，使其能够立即评估整个文本块以实时修复错误。实验状态和生产建议：由于它优先考虑速度和并行布局生成，DiffusionGemma 的整体输出质量低于标准 Gemma 4。对于需要最高质量的应用程序，我们建议部署标准 Gemma 4。您可以通过微调来提高 DiffusionGemma 在特定任务上的性能。在下面的示例中，Unsloth 微调了 DiffusionGemma 来玩数独——自回归模型很难完成这项任务，因为每个标记都取决于未来的标记。 DiffusionGemma 的双向注意力使这变得更加容易。微调 DiffusionGemma 求解数独。为什么要进行文本扩散？尽管人工智能研究界多年来一直在探索基于扩散的文本生成，但将其应用于大型模型仍然是一个挑战。 DiffusionGemma 通过改变模型使用硬件的方式来改变这一点。与传统模型的权衡大多数语言模型就像一台打字机，从左到右一次生成一个标记。在云中，这是高效的，因为服务器可以将数千个用户请求一起批处理以共享硬件负载。但是，当在本地为单个用户运行时，这个逐字处理会使您的专用 GPU 或 TPU 未得到充分利用 - 它大部分时间只是等待下一次“击键”。 DiffusionGemma 扭转了这种低效率。它不是按顺序预测单词，而是同时起草整个 256 个标记的段落。通过立即为计算机的处理器提供更大的工作量，DiffusionGemma 可以充分利用您的硬件的潜力。它将您的模型推理从单一的顺序打字机升级为可同时标记整个文本块的大型印刷机。 Hugging Face 的 DiffusionGemma 文本转 3D SVG 演示。一步步生成。这意味着 DiffusionGemma 的加速是为本地和低并发推理而设计的。在高 QPS 云服务中，可以部署自回归模型来有效地饱和计算，因此 DiffusionGemma 的并行解码会带来收益递减，并可能导致更高的服务成本。在单个加速器上的中低批量大小时，吞吐量优势最为明显。文本扩散的工作原理与从视觉静态开始并迭代地将其细化为清晰图片的 AI 图像生成器类似，DiffusionGemma 将其应用于文本：画布：模型从随机占位符标记的画布开始。迭代细化：模型进行多次传递，

订阅66必读