RateQuant：通过率失真理论实现最佳混合精度 KV 缓存量化

arXiv:2605.06675v1 公告类型：new 摘要：大型语言模型在生成过程中缓存所有先前计算的键值 (KV) 对，并且此 KV 缓存随序列长度线性增长，使其成为服务的主要内存瓶颈。将 KV 缓存量化为更少的位可以降低这种成本，但所有当前的量化器都为每个注意力头分配相同的位宽，忽略了头重要性的巨大变化。一个自然的想法是将更多的比特分配给重要的头，而将更少的比特分配给其余的。然而，我们表明，这种混合精度分配有一个隐藏的陷阱：每个量化器遵循不同的失真曲线 D(b)=alpha*beta^{-b}，并且不同量化器设计的衰减率 beta 从 3.6 到 5.3 不等。将一个量化器的失真模型应用于另一个量化器会反转分配顺序，并使性能比均匀量化更差。我们称这种故障模式失真模型不匹配并提出 RateQuant 来解决它。 RateQuant 从一个小的校准集中拟合每个量化器的失真模型，然后通过速率失真理论的反向注水以封闭形式解决由此产生的比特分配问题。在平均位数为 2.5 的 Qwen3-8B 上，校准后的 RateQuant 将 KIVI 的困惑度从 49.3 降低到 14.9（降低了 70%），并将 QuaRot 提高了 6.6 PPL。整个校准在单个 GPU 上需要 1.6 秒，并且推理时间的开销为零。