为扩散语言模型启用共享前缀的 KV 缓存

摘要

arXiv:2606.07571v1 Announce Type: new Abstract: Key-value (KV) caching for shared prefixes is essential for high-throughput large language model (LLM) serving, but it faces critical challenges in emer

shared for the KVs prefix

2026-06-09 1 阅读约1分钟阅读 Younghun Go, Jaehoon Han, Changyong Shin, Chuk Yoo, Gyeongsik Yang

arXiv:2606.07571v1 公告类型：新摘要：共享前缀的键值 (KV) 缓存对于高吞吐量大型语言模型 (LLM) 服务至关重要，但它在新兴的扩散语言模型 (DLM) 中面临着严峻的挑战。在 DLM 中，双向注意力意味着更新任何 token 都会动态改变整个上下文及其相应的 KV。因此，为 LLM 开发的现有缓存技术假设 KV 在计算后保持不变，从而破坏了共享前缀 KV。我们的实验表明，将这些技术应用于 DLM 会导致模型精度下降到接近于零。为了解锁高吞吐量的 DLM 服务，我们提出了双向前缀缓存 bicache，这是 DLM 中共享前缀的第一个 KV 缓存技术。 bicache 的设计基于我们综合分析的关键观察结果：共享前缀 KV 在浅层中保持稳定且可重用，而浅层的深度取决于每个请求中共享前缀令牌的比例。因此，bicache动态地识别安全层深度以重用共享前缀KV并消除冗余计算。评估表明，与现有技术相比，bicache 显着提高了服务吞吐量 36.3%-98.3%，且精度没有下降（仅相差 0-1.8%）。

订阅66必读