用于混合和循环 LLM 服务的稀疏前缀缓存

arXiv:2605.05219v1 公告类型：新摘要：前缀缓存是自回归 LLM 服务的关键延迟优化，但现有系统假设密集的每个令牌键/值重用。状态空间模型改变了问题的结构：循环层可以从单个存储状态恢复，而不需要整个令牌历史记录。这种不对称性在不重用和密集缓存之间开辟了一个新的设计点：在一组稀疏的检查点位置处存储精确的循环状态，并且在缓存命中时，从最深的存储检查点恢复并精确地重新计算剩余的后缀。我们将稀疏前缀缓存形式化为重叠深度分布下的检查点放置，从而产生精确的 O(NM) 动态程序。对于请求共享一个重要前缀的用例（例如，询问有关单个长文档的不同问题），我们表明我们的方法始终如一地改进了通过现实世界数据的标准启发式追踪的帕累托前沿。在质量和系统提示中，分布感知布局主导了测量的层组帕累托前沿上的每个固定预算基线，并且匹配或优于最强的启发式（块缓存），同时通常使用更少的检查点，在重叠分布最不均匀的低检查点预算下获得最大收益。当许多请求在保留的缓存条目内共享大量但不相同的前缀时，该方法最为相关。它保留精确的输出，不会改变循环计算本身或需要新的循环更新内核，适用于可以准确提取和恢复隐藏状态的循环/SSM层，并且对于混合模型可以与现有的KV缓存压缩技术相结合。