智能AI
morning
为扩散语言模型启用共享前缀的 KV 缓存
2026-06-09
1 阅读
Younghun Go, Jaehoon Han, Changyong Shin, Chuk Yoo, Gyeongsik Yang
arXiv:2606.07571v1 公告类型:新 摘要:共享前缀的键值 (KV) 缓存对于高吞吐量大型语言模型 (LLM) 服务至关重要,但它在新兴的扩散语言模型 (DLM) 中面临着严峻的挑战。在 DLM 中,双向注意力意味着更新任何 token 都会动态改变整个上下文及其相应的 KV。因此,为 LLM 开发的现有缓存技术假设 KV 在计算后保持不变,从而破坏了共享前缀 KV。我们的实验表明,将这些技术应用于 DLM 会导致模型精度下降到接近于零。为了解锁高吞吐量的 DLM 服务,我们提出了双向前缀缓存 bicache,这是 DLM 中共享前缀的第一个 KV 缓存技术。 bicache 的设计基于我们综合分析的关键观察结果:共享前缀 KV 在浅层中保持稳定且可重用,而浅层的深度取决于每个请求中共享前缀令牌的比例。因此,bicache动态地识别安全层深度以重用共享前缀KV并消除冗余计算。评估表明,与现有技术相比,bicache 显着提高了服务吞吐量 36.3%-98.3%,且精度没有下降(仅相差 0-1.8%)。