谷歌开源DiffusionGemma，自送差评，速度却快4倍

新智元报道【新智元导读】大厂发新模型，话术从来是「更强」。可谷歌这次的官方指南里写着：它不如自家旧款。这一次开源 DiffusionGemma ，谷歌把「我不如我」写进了官方指南。 Google Gemma官方称DiffusionGemma是一个探索快速文本生成的实验性开源模型：不再逐个token顺序处理，而是一次生成整段文本。还在DiffusionGemma官方开发者指南中，自送一句「差评」。谷歌说，这个模型基于自家前沿的Gemini Diffusion研究，主打生成速度，适合行内编辑、快速迭代、生成非线性文本结构这类对速度严苛的本地交互场景。至于高质量的生产级输出，它建议你继续用Gemma 4。说白了：新模型更快，但生成质量更差。 6月10日，Google DeepMind在 Hugging Face上线DiffusionGemma，Apache 2.0许可，开源权重。 https://huggingface.co/google/diffusiongemma-26B-A4B-it 单张NVIDIA H100上， DiffusionGemma的文本生成速度突破每秒1000个token，最高比自家自回归模型快4倍。一个自己都说生成质量退步的模型，凭什么值得关注？ DiffusionGemma不是Gemma 4的升级版，它是Google DeepMind出品的实验性开放模型（experimental open model），底子是Gemma 4的26B A4B混合专家（Mixture of Experts，MoE）架构，总参数约252亿，推理时只激活约38亿。不同的是它生成文本的方式：不再逐个token自回归，而是离散文本扩散（discrete text diffusion）。它从一开始就没打算在高质量的生产级场景和Gemma 4硬拼，所以前面说到的能力「不如旧款」，更像是厘清定位。 CEO劈柴（Sundar Pichai）亲自发推，把DiffusionGemma比作「一匹赛马」：靠同时生成整段文本块、而不是逐字预测来抢速度。逐token打字机与一次成块的印刷机要看清楚DiffusionGemma最大的不同，要先明白今天的大模型是怎么对外输出的。从GPT到Claude，再到Gemma，几乎所有主流大模型都在做同一件事：预测下一个词元。这套机制，很像一台打字机，一个字一个字往下敲。 DiffusionGemma换了一种思路，它的灵感来自图像扩散：生成图片的扩散模型，从一团随机噪声起步，一步步把噪声擦掉，逼近一张清晰的图。 DiffusionGemma把这套机制搬进文本：先铺一张256个随机占位token的「画布」，再多轮并行去噪，让整段文字一次性「冲洗」成形。谷歌认为这好比从打字机升级成印刷机。打字机一次敲一个字，印刷机一次压一整版。这张「画布」，带来一个自回归模型给不了的能力：双向注意力。逐token的模型只能往左看，已经吐出去的字改不了，开头错一个，能一路错到结尾。DiffusionGemma在去噪时，画布上每个位置都能看到其他所有位置。哪个token置信度掉下来了，采样器能把它打回噪声、重改一遍。也就是说，它能一边写一边回头改自己的草稿。左边的自回归模型像打字机，只能从左往右一个token接一个token地写；右边的扩散模型更像在打磨一整块草稿，去噪时能同时参考画布里的前后位置和已经写好的上文，不断修正不确定的token。 Google DeepMind官方点出了一个很直观的好处，它可以实时自我修正，连复杂的Markdown格式都能一次性闭合收尾，而不是像逐字模型那样写到一半才发现括号没配上。文本超过256个token怎么办？它走块自回归（block-autoregressive）：一张256-token的画布去噪完，写进KV缓存，再开下一张新画布，接着上文往下生成。将并行的快和自回归的稳，融合在了一起。单卡真快但4倍加速要挑场合并行去噪，带来的直接好处是吞吐。官方成绩单是：单张H100上1000+ tokens/s，消费级的RTX 5090上700+ tokens/s，模型卡里还提到H100在FP8、低batch下能冲过1100 tokens/s。英伟达那边补了更多机型，DGX Spark 150 tokens/s，DGX Station最高能到2000 tokens/s。更接地气的是量化之后，它只占大约18GB显存，塞得进高端消费级显卡。这意味着RTX 5090、4090这种游戏卡，本地就能跑。但「4倍加速」这四个字，谷歌官方也划出了适用范围：这个速度，主要出现在本地、单用户、请求不多的场景里：一台机器、一个人用，一次也没几个任务在排队。换成云端那种每秒要扛成千上万条请求的高并发服务，情况就反过来了，跑同样的服务，单位成本甚至更高。为什么是扩散把GPU从等内存里解放出来为什么换个生成方式，就能快这么多？关键在GPU到底在干等什么。逐token的自回归，本质是个内存带宽瓶颈（memory-bound）：每吐一个字，GPU都得把模型权重从显存里搬一遍，大部分时间在等数据搬运，真正算数的算力反倒闲着。扩散把这道题反了过来。一整块256个token并行推过transformer，是个计算瓶颈（compute-bound）的活儿，正好喂饱NVIDIA的张量核心（Tensor Core），而这恰恰是GPU最擅长、平时本地单用户推理时最闲的部分。英伟达这次也下了功夫，原生支持NVFP4（4-bit浮点）格式，在接近无损精度的前提下进一步抬高吞吐；CUDA栈day-zero就能跑，不用专门调优。这个模型的设计，几乎是冲着GPU的长处去的。 benchmark上差距有多明显与Gemma 4相比，DiffusionGemma到底怎么样，模型卡给出了数字。一张图看清DiffusionGemma的取舍：最左的输出速度（tok/s，单张H100、fp8、单请求）上，它以1107对303把Gemma 4甩开近四倍；可往右数六项质量基准，从多语言问答到数学、代码、科学知识，它项项落在Gemma 4身后。图上的几项质量基准落差，DiffusionGemma比Gemma 4明显要低。差得最狠的是数学，AIME 2026上69.1%对88.3%，接近20个百分点的鸿沟。图里没画的还有更难看的：多模态的MMMU Pro，54.3%对73.8%，同样也低了近20个点。认怂背后是真有差距，但在那些「非线性」任务上，双向注意力反而占便宜。最典型的是数独：每个格子都被横、竖和九宫格同时约束，必须前后兼顾，逐token模型天生别扭，只能从左往右填、没法回头。微调后的DiffusionGemma解数独：不是从左到右一格格填，而是整盘并行去噪、几步之内同时收敛。这类前后强约束的任务，恰恰是逐token模型最头疼、双向注意力最占便宜的场景。 DiffusionGemma的基础模型起初也几乎解不出（成功率约0%），但谷歌用一套简单的SFT微调跑了一遍，正确率直接拉到80%。代码中插（infilling）也是同理，前后文都得照顾，扩散的全局