智能AI evening

谷歌开源DiffusionGemma,自送差评,速度却快4倍

2026-06-19 1 阅读 新智元
新智元报道 【新智元导读】 大厂发新模型,话术从来是「更强」。可谷歌这次的官方指南里写着:它不如自家旧款。 这一次开源 DiffusionGemma ,谷歌把「我不如我」写进了官方指南。 Google Gemma官方称DiffusionGemma是一个探索快速文本生成的实验性开源模型: 不再逐个token顺序处理,而是一次生成整段文本。 还在DiffusionGemma官方开发者指南中, 自送一句「差评」。 谷歌说,这个模型基于自家前沿的Gemini Diffusion研究,主打生成速度,适合行内编辑、快速迭代、生成非线性文本结构这类对速度严苛的本地交互场景。至于高质量的生产级输出,它建议你继续用Gemma 4。 说白了:新模型更快,但生成质量更差。 6月10日,Google DeepMind在 Hugging Face上线DiffusionGemma,Apache 2.0许可,开源权重。 https://huggingface.co/google/diffusiongemma-26B-A4B-it 单张NVIDIA H100上, DiffusionGemma的 文本生成速度突破每秒1000个token,最高比自家自回归模型快4倍。 一个自己都说生成质量退步的模型,凭什么值得关注? DiffusionGemma不是Gemma 4的升级版,它是Google DeepMind出品的实验性开放模型(experimental open model),底子是Gemma 4的26B A4B混合专家(Mixture of Experts,MoE)架构,总参数约252亿,推理时只激活约38亿。 不同的是它生成文本的方式:不再逐个token自回归,而是离散文本扩散(discrete text diffusion)。 它从一开始就没打算在高质量的生产级场景和Gemma 4硬拼,所以前面说到的能力「不如旧款」,更像是厘清定位。 CEO劈柴(Sundar Pichai)亲自发推,把DiffusionGemma比作「一匹赛马」:靠同时生成整段文本块、而不是逐字预测来抢速度。 逐token打字机 与一次成块的印刷机 要看清楚DiffusionGemma最大的不同,要先明白今天的大模型是怎么对外输出的。 从GPT到Claude,再到Gemma,几乎所有主流大模型都在做同一件事:预测下一个词元。 这套机制,很像一台打字机,一个字一个字往下敲。 DiffusionGemma换了一种思路,它的灵感来自图像扩散: 生成图片的扩散模型,从一团随机噪声起步,一步步把噪声擦掉,逼近一张清晰的图。 DiffusionGemma把这套机制搬进文本:先铺一张256个随机占位token的「画布」,再多轮并行去噪,让整段文字一次性「冲洗」成形。 谷歌认为这好比从打字机升级成印刷机。打字机一次敲一个字,印刷机一次压一整版。 这张「画布」,带来一个自回归模型给不了的能力:双向注意力。 逐token的模型只能往左看,已经吐出去的字改不了,开头错一个,能一路错到结尾。DiffusionGemma在去噪时,画布上每个位置都能看到其他所有位置。哪个token置信度掉下来了,采样器能把它打回噪声、重改一遍。 也就是说,它能一边写一边回头改自己的草稿。 左边的自回归模型像打字机,只能从左往右一个token接一个token地写;右边的扩散模型更像在打磨一整块草稿,去噪时能同时参考画布里的前后位置和已经写好的上文,不断修正不确定的token。 Google DeepMind官方点出了一个很直观的好处,它可以实时自我修正,连复杂的Markdown格式都能一次性闭合收尾,而不是像逐字模型那样写到一半才发现括号没配上。 文本超过256个token怎么办? 它走块自回归(block-autoregressive):一张256-token的画布去噪完,写进KV缓存,再开下一张新画布,接着上文往下生成。 将并行的快和自回归的稳,融合在了一起。 单卡真快 但4倍加速要挑场合 并行去噪,带来的直接好处是吞吐。 官方成绩单是:单张H100上1000+ tokens/s,消费级的RTX 5090上700+ tokens/s,模型卡里还提到H100在FP8、低batch下能冲过1100 tokens/s。 英伟达那边补了更多机型,DGX Spark 150 tokens/s,DGX Station最高能到2000 tokens/s。 更接地气的是量化之后,它只占大约18GB显存,塞得进高端消费级显卡。这意味着RTX 5090、4090这种游戏卡,本地就能跑。 但「4倍加速」这四个字,谷歌官方也划出了适用范围: 这个速度,主要出现在本地、单用户、请求不多的场景里:一台机器、一个人用,一次也没几个任务在排队。 换成云端那种每秒要扛成千上万条请求的高并发服务,情况就反过来了,跑同样的服务,单位成本甚至更高。 为什么是扩散 把GPU从等内存里解放出来 为什么换个生成方式,就能快这么多? 关键在GPU到底在干等什么。逐token的自回归,本质是个内存带宽瓶颈(memory-bound):每吐一个字,GPU都得把模型权重从显存里搬一遍,大部分时间在等数据搬运,真正算数的算力反倒闲着。 扩散把这道题反了过来。 一整块256个token并行推过transformer,是个计算瓶颈(compute-bound)的活儿,正好喂饱NVIDIA的张量核心(Tensor Core),而这恰恰是GPU最擅长、平时本地单用户推理时最闲的部分。 英伟达这次也下了功夫,原生支持NVFP4(4-bit浮点)格式,在接近无损精度的前提下进一步抬高吞吐;CUDA栈day-zero就能跑,不用专门调优。这个模型的设计,几乎是冲着GPU的长处去的。 benchmark上差距有多明显 与Gemma 4相比,DiffusionGemma到底怎么样,模型卡给出了数字。 一张图看清DiffusionGemma的取舍:最左的输出速度(tok/s,单张H100、fp8、单请求)上,它以1107对303把Gemma 4甩开近四倍;可往右数六项质量基准,从多语言问答到数学、代码、科学知识,它项项落在Gemma 4身后。 图上的几项质量基准落差,DiffusionGemma比Gemma 4明显要低。差得最狠的是数学,AIME 2026上69.1%对88.3%,接近20个百分点的鸿沟。 图里没画的还有更难看的:多模态的MMMU Pro,54.3%对73.8%,同样也低了近20个点。 认怂背后是真有差距,但在那些「非线性」任务上,双向注意力反而占便宜。 最典型的是数独:每个格子都被横、竖和九宫格同时约束,必须前后兼顾,逐token模型天生别扭,只能从左往右填、没法回头。 微调后的DiffusionGemma解数独:不是从左到右一格格填,而是整盘并行去噪、几步之内同时收敛。这类前后强约束的任务,恰恰是逐token模型最头疼、双向注意力最占便宜的场景。 DiffusionGemma的基础模型起初也几乎解不出(成功率约0%),但谷歌用一套简单的SFT微调跑了一遍,正确率直接拉到80%。 代码中插(infilling)也是同理,前后文都得照顾,扩散的全局