智能AI morning

模型在预填充时做笔记:KV 缓存可以编辑和组合

2026-06-17 1 阅读 Bojie Li
arXiv:2606.17107v1 公告类型:新摘要:前缀缓存仅在完全共享的前缀上重用预填充,因此一个更改的字段会使整个下游缓存失效。然而,覆盖字段自己的键/值向量并重用其余向量会使模型作用于旧值。原因是在四个模型系列中建立的因果关系:在预填充时,模型已经将场条件结论写入下游注释中;该领域自己的键/值对决策的影响不到 1%。作为记忆结论的笔记本来阅读,有两个功能。 (1) 可编辑。一个显着的勘误修改了注释; and with chain-of-thought, editing the field alone recovers the decision (1.00 at 8B, ~1% compute), while without CoT it is ignored. (2)它是可组合的。这些注释是位置可移植的,因此预编译技能可以通过 RoPE 重新定位并拼接到任何上下文中,与完全重新计算(logit cosine 0.90-0.999,十二个模型)在 O(L) 而不是 O(L^2) 时间到第一个令牌之间没有区别。 A unified edit+compose agent stays decision-identical to recompute at up to 14.9x lower latency.该方法适用于任何每个令牌注意力 KV 缓存,跨规模、量化、专家混合和多模式缓存进行验证,并通过小型适配器扩展到多个注意力变体。因为勘误表是仅附加的,所以它与生产前缀缓存组合在一起:在在线 vLLM 基准测试中,它保持前缀缓存对齐(98.5% 命中率),将 p90 首次标记时间缩短 53-398 倍。