智能AI
morning
受 TurboQuant 启发的 KV 缓存量化的统计推断和质量测量
2026-05-12
1 阅读
Paolo D'Alberto
arXiv:2605.08114v1 公告类型:新 摘要:我们在合理的位预算下分析了三种 KV 缓存量化方案:\textbf{KV}(标量 MSE 基线)、\textbf{KQV}($K$ 上的 WHT + MSE;$V$ 上的 WHT + MSE + QJL)和 \textbf{QKQV}(两者上的 WHT + MSE + QJL)。从超球面上的 Beta 分布开始,我们追踪 $K$ 上的 QJL 如何使内积方差膨胀 $\pi/2$,其中 softmax 通过 Jensen 不等式非线性放大,并且我们提出统计推断和信息度量来突出实际差异。出现了三个实证结果。 (1)~在 $n=4$(实际上占主导地位的预算)时,KQV 在所有测试的分布和排名中在每项指标上都获胜——KL 散度、几何 $K$ 误差和 6D 距离。 (2)~K--V 不对称性是无条件的:在每个预算和分布下,QKQV 的 KL 散度始终比 KQV 差。 (3)~存在预算相关的交叉:QKQV 在 $n \in \{2,3,5\}$ 处实现更好的几何 $K$ 重建,KQV 在 $n \in \{4,6\}$ 处实现更好的几何 $K$ 重建,对排名和尾部权重不变 - 一个开放的率失真问题。 $\mathrm{KL}(p_{\mathrm{ref}} \| p_{\mathrm{quant}})$,仅通过构造 K,将 K 方向错误桥接到路由损坏和输出崩溃。我们提出了 Jensen 机制通过 softmax 超线性放大的充分条件。在 $n \in \{2,3,5\}$ 处,QKQV 几何获胜,因为这个假设不成立。在 $n=4$ 时,QKQV 的 K 误差和 KL 散度升高,强烈表明 Jensen 机制是交叉的操作原因,提供了新的视角和解释。