使用移动 NPU 进行高效的设备上扩散 LLM 推理

摘要

arXiv:2606.13740v1 Announce Type: new Abstract: Diffusion large language models (dLLMs) accelerate generation by denoising multiple tokens in parallel, making them attractive for latency-sensitive mob

and NPU tokens block llada

2026-06-15 1 阅读约1分钟阅读 Tuowei Wang, Yanfan Sun, Ju Ren

arXiv:2606.13740v1 公告类型：新摘要：扩散大型语言模型 (dLLM) 通过并行对多个标记进行去噪来加速生成，使其对延迟敏感的移动推理具有吸引力。然而，重复降噪会给智能手机带来大量计算量。移动神经处理单元 (NPU) 提供高吞吐量密集矩阵计算，但有效利用它们仍然具有挑战性：令牌承诺缩小了每个块的有效工作负载，令牌修订使 KV 缓存重用变得复杂，有限的 NPU 可见地址空间会导致昂贵的重新映射和数据传输开销。在本文中，我们提出了 llada.cpp，这是第一个用于加速智能手机上的 dLLM 的 NPU 感知推理框架。 llada.cpp 通过三种技术将块式 dLLM 推理与移动 NPU 的执行特性结合起来。 (1) 多块推测解码用推测的未来块令牌填补了后期当前块解码中不断减少的工作量。 (2) 双路径渐进修订使提交的令牌保持可修订直至稳定，并通过 CPU 端路径刷新不稳定的令牌，而不会停止密集的 NPU 执行。 (3) 交换优化内存运行时压缩 NPU 可见地址布局，并将数据暂存与 NPU 计算重叠，以减少重新映射和传输开销。我们将 llada.cpp 实现为端到端框架，并跨不同的硬件平台和 dLLM 工作负载对其进行评估。 llada.cpp 通过前缀 KV 缓存重用，将 LLaDA-8B 生成延迟比 CPU 基线降低了 17 倍至 42 倍，同时保持生成质量。

订阅66必读