谷歌LiteRT-LM通过Gemma 4多Token预测将本地推理速度提升了最高2.2倍

LiteRT-LM 原生支持Gemma 4的多Token预测（Multi-Token Prediction，MTP）草稿器（drafter） "，可将推理速度提升最高2.2倍。该框架已经从Kotlin与C++进行了扩展，新增了对Swift和JavaScript API的支持。 LiteRT-LM在LiteRT（前身为TensorFlow Lite）之上包含了一层专门的编排逻辑，专为处理大规模语言模型（LLM）而设计。谷歌表示，它是在Android、iOS与Web等平台上运行 Gemma 4的运行时，经过了生产环境的验证和高度优化。其基于LiteRT的底层使其能有效应对内存、计算与硬件碎片化等约束，结合了先进的量化模式以及加速的XNNPACK和MLDrift内核。在编排层面，它采用优化流水线以最小化昂贵的CPU-GPU数据传输，支持多Token预测并具备先进的会话管理功能。谷歌称这种组合使其成为“针对Gemma模型性能最高的运行时环境”。 LiteRT-LM在MTP上采用了推测性解码（speculative decoding），并通过“优化主模型与MTP草稿器之间的数据交互”来避免简单实现的常见瓶颈。为了实现这一点，LiteRT-LM通过在相同硬件IP（例如，GPU）上同时执行轻量级的MTP草稿器与主模型来实现内存的局部化。在本地内存中管理共享的KV缓存和激活态，完全消除了跨IP同步与数据传输带来的延迟惩罚。一旦草稿器预测出未来的token，主模型便使用优化内核对其进行评估，从而在验证阶段最大化并行处理。基于自身的基准测试，谷歌表示MTP解码在Gemma 4 E2B上快了1.6倍，在Gemma 4 E4B上快了2.2倍。公司还报告称，无论是预填充（prefill）还是解码（decode）性能，相比llama.cpp、MLX、Cactus与ONNX等竞争框架提升了1.8到3.7倍。 LiteRT-LM将会话管理视为一等特性。它可以保存并恢复KV缓存状态，从而在避免昂贵重算的同时无缝续接长时交互，这既能改善用户体验也能提高效率。另一个重要支柱是内存效率，通过将按层分布的嵌入向量（per-layer embeddings）保持在外部并按需动态加载图像与音频编码器，运行时可以尽可能地保持精简。例如，约2.58 GB的Gemma 4 E2B模型在Apple移动CPU上只占用了约607MB。系统还强调了agentic的能力，原生支持Gemma 4的“思考模式（Thinking Mode）”、用于结构化输出的约束解码 "，以及函数调用（function-calling） "。这些功能允许运行时暂停执行、返回结构化的工具调用请求并在随后恢复执行。随Gemma 4一同推出的多Token预测草稿器使用推测性解码并行生成多个token，然后在单次通过的过程中一起进行验证。该方法减少了VRAM与计算单元之间的持续数据移动，同时利用了许多预测“显而易见”这一事实，这类预测通常不需要像其他情况那么多的计算。 LiteRT-LM已经在GitHub 开源 "，并包括用于桌面试验的 CLI "，以及用于在设备上运行的移动示例应用 "。查看英文原文： Google LiteRT-LM Speeds Up Local Inference Up to 2.2x With Gemma 4 Multi-Token Prediction "