智能AI morning

LKV:Head-wise 预算的端到端学习和 LLM KV 缓存驱逐的令牌选择

2026-05-11 1 阅读 Enshuai Zhou, Yifan Hao, Chao Wang, Rui Zhang, Di Huang, Jiaming Guo, Xing Hu, Zidong Du, Qi Guo, Yunji Chen
arXiv:2605.06676v1 公告类型:新 摘要:大型语言模型 (LLM) 中的长上下文推理受到键值 (KV) 缓存的线性增长的瓶颈。现有的 KV 缓存压缩范例从根本上受到启发式的限制:启发式预算依赖于统计先验而不是任务目标,导致资源分配不当,而启发式选择依赖于耦合的查询键交互或静态归纳偏差(例如,注意力池)。为了解决这个限制,我们引入了 LKV(Learned KV Eviction),它将 KV 压缩表述为端到端可微优化问题。 LKV 集成了 LKV-H 来学习任务优化的全局预算,并集成了 LKV-T 来导出内在的 KV 重要性,而无需具体化注意力矩阵。这种设计绕过启发式代理,严格使压缩与任务目标保持一致。广泛的评估表明,LKV 在高压缩率下在 LongBench 和 RULER 基准测试中实现了最先进的性能。特别是,在 LongBench 上,LKV 实现了近乎无损的性能,KV 缓存保留率仅为 15\%。至关重要的是,我们的分析将学习预算确定为保真度的主要驱动因素,这表明数据驱动的分配对于克服手工启发式的局限性至关重要。