受 TurboQuant 启发的 KV 缓存量化的统计推断和质量测量

arXiv:2605.08114v1 公告类型：新摘要：我们在合理的位预算下分析了三种 KV 缓存量化方案：\textbf{KV}（标量 MSE 基线）、\textbf{KQV}（$K$ 上的 WHT + MSE；$V$ 上的 WHT + MSE + QJL）和 \textbf{QKQV}（两者上的 WHT + MSE + QJL）。从超球面上的 Beta 分布开始，我们追踪 $K$ 上的 QJL 如何使内积方差膨胀 $\pi/2$，其中 softmax 通过 Jensen 不等式非线性放大，并且我们提出统计推断和信息度量来突出实际差异。出现了三个实证结果。 (1)~在 $n=4$（实际上占主导地位的预算）时，KQV 在所有测试的分布和排名中在每项指标上都获胜——KL 散度、几何 $K$ 误差和 6D 距离。 (2)~K--V 不对称性是无条件的：在每个预算和分布下，QKQV 的 KL 散度始终比 KQV 差。 (3)~存在预算相关的交叉：QKQV 在 $n \in \{2,3,5\}$ 处实现更好的几何 $K$ 重建，KQV 在 $n \in \{4,6\}$ 处实现更好的几何 $K$ 重建，对排名和尾部权重不变 - 一个开放的率失真问题。 $\mathrm{KL}(p_{\mathrm{ref}} \| p_{\mathrm{quant}})$，仅通过构造 K，将 K 方向错误桥接到路由损坏和输出崩溃。我们提出了 Jensen 机制通过 softmax 超线性放大的充分条件。在 $n \in \{2,3,5\}$ 处，QKQV 几何获胜，因为这个假设不成立。在 $n=4$ 时，QKQV 的 K 误差和 KL 散度升高，强烈表明 Jensen 机制是交叉的操作原因，提供了新的视角和解释。