开发者生态
morning
谷歌LiteRT-LM通过Gemma 4多Token预测将本地推理速度提升了最高2.2倍
2026-06-23
1 阅读
作者:Sergio De Simone
LiteRT-LM 原生支持Gemma 4的多Token预测(Multi-Token Prediction,MTP)草稿器(drafter) ",可将推理速度提升最高2.2倍。该框架已经从Kotlin与C++进行了扩展,新增了对Swift和JavaScript API的支持。 LiteRT-LM在LiteRT(前身为TensorFlow Lite)之上包含了一层专门的编排逻辑,专为处理大规模语言模型(LLM)而设计。谷歌表示,它是在Android、iOS与Web等平台上运行 Gemma 4的运行时,经过了生产环境的验证和高度优化。 其基于LiteRT的底层使其能有效应对内存、计算与硬件碎片化等约束,结合了先进的量化模式以及加速的XNNPACK和MLDrift内核。在编排层面,它采用优化流水线以最小化昂贵的CPU-GPU数据传输,支持多Token预测并具备先进的会话管理功能。谷歌称这种组合使其成为“针对Gemma模型性能最高的运行时环境”。 LiteRT-LM在MTP上采用了推测性解码(speculative decoding),并通过“优化主模型与MTP草稿器之间的数据交互”来避免简单实现的常见瓶颈。 为了实现这一点,LiteRT-LM通过在相同硬件IP(例如,GPU)上同时执行轻量级的MTP草稿器与主模型来实现内存的局部化。在本地内存中管理共享的KV缓存和激活态,完全消除了跨IP同步与数据传输带来的延迟惩罚。一旦草稿器预测出未来的token,主模型便使用优化内核对其进行评估,从而在验证阶段最大化并行处理。 基于自身的基准测试,谷歌表示MTP解码在Gemma 4 E2B上快了1.6倍,在Gemma 4 E4B上快了2.2倍。公司还报告称,无论是预填充(prefill)还是解码(decode)性能,相比llama.cpp、MLX、Cactus与ONNX等竞争框架提升了1.8到3.7倍。 LiteRT-LM将会话管理视为一等特性。它可以保存并恢复KV缓存状态,从而在避免昂贵重算的同时无缝续接长时交互,这既能改善用户体验也能提高效率。 另一个重要支柱是内存效率,通过将按层分布的嵌入向量(per-layer embeddings)保持在外部并按需动态加载图像与音频编码器,运行时可以尽可能地保持精简。例如,约2.58 GB的Gemma 4 E2B模型在Apple移动CPU上只占用了约607MB。 系统还强调了agentic的能力,原生支持Gemma 4的“思考模式(Thinking Mode)”、用于结构化输出的 约束解码 ",以及 函数调用(function-calling) "。这些功能允许运行时暂停执行、返回结构化的工具调用请求并在随后恢复执行。 随Gemma 4一同推出的多Token预测草稿器使用推测性解码并行生成多个token,然后在单次通过的过程中一起进行验证。该方法减少了VRAM与计算单元之间的持续数据移动,同时利用了许多预测“显而易见”这一事实,这类预测通常不需要像其他情况那么多的计算。 LiteRT-LM已经在GitHub 开源 ",并包括用于桌面试验的 CLI ",以及用于在设备上运行的 移动示例应用 "。 查看英文原文: Google LiteRT-LM Speeds Up Local Inference Up to 2.2x With Gemma 4 Multi-Token Prediction "