智能AI morning

潜在缓存流:无文本的模型到模型通信

2026-05-25 1 阅读 Maximillian Rossi, Prajwal Raghunath, Eugene Wu
arXiv:2605.22863v1 公告类型:新 摘要:LLM 代理如今通过文本进行通信,由于需要对共享者模型的状态进行自回归解码并在接收者模型上进行编码,因此会导致相当大的延迟和信息丢失。最近的工作,例如 Cache-to-Cache(C2C;Fu et al., 2026),试图通过学习将共享者 KV 矩阵转换为接收者模型的适配器来交换 KV 缓存。然而,适配器体积庞大,训练和翻译单个标记的成本昂贵,这要求目标上下文相同。这不适合代理沟通,因为法学硕士有不同的背景。我们引入潜在缓存流(LCF)。为了提高效率,我们发现键和值可以联合转换和压缩,从而将适配器的大小减少到 C2C 大小的 4% 左右。为了解决不同的上下文,我们设计适配器来传输目标模型没有的新信息的摘要。我们的早期实验表明,在共享上下文设置中,13 MB LCF 适配器比 956 MB C2C 适配器更准确;对于不同的上下文,LCF 比基于文本的通信准确率高 23%,速度快 8.5 倍。