LKV：Head-wise 预算的端到端学习和 LLM KV 缓存驱逐的令牌选择

2026-05-11 1 阅读 Enshuai Zhou, Yifan Hao, Chao Wang, Rui Zhang, Di Huang, Jiaming Guo, Xing Hu, Zidong Du, Qi Guo, Yunji Chen

arXiv:2605.06676v1 公告类型：新摘要：大型语言模型 (LLM) 中的长上下文推理受到键值 (KV) 缓存的线性增长的瓶颈。现有的 KV 缓存压缩范例从根本上受到启发式的限制：启发式预算依赖于统计先验而不是任务目标，导致资源分配不当，而启发式选择依赖于耦合的查询键交互或静态归纳偏差（例如，注意力池）。为了解决这个限制，我们引入了 LKV（Learned KV Eviction），它将 KV 压缩表述为端到端可微优化问题。 LKV 集成了 LKV-H 来学习任务优化的全局预算，并集成了 LKV-T 来导出内在的 KV 重要性，而无需具体化注意力矩阵。这种设计绕过启发式代理，严格使压缩与任务目标保持一致。广泛的评估表明，LKV 在高压缩率下在 LongBench 和 RULER 基准测试中实现了最先进的性能。特别是，在 LongBench 上，LKV 实现了近乎无损的性能，KV 缓存保留率仅为 15\%。至关重要的是，我们的分析将学习预算确定为保真度的主要驱动因素，这表明数据驱动的分配对于克服手工启发式的局限性至关重要。