模糊窗口注意

摘要

arXiv:2606.09862v1 Announce Type: new Abstract: The Softmax Attention operation in Transformer language models has a quadratic complexity in the sequence length and a growing state size in the form of

the and Attention BLA models

2026-06-10 1 阅读约1分钟阅读 Axel Laborieux, Christos Sourmpis, Juan Gabriel Kostelec, Qinghai Guo

arXiv:2606.09862v1 公告类型：new 摘要：Transformer 语言模型中的 Softmax Attention 操作具有序列长度的二次复杂度以及以 KV 缓存形式不断增长的状态大小，这在长上下文场景中成为瓶颈。为了克服这一限制，引入了具有线性复杂度和有限状态大小的替代架构，例如状态空间模型（SSM）、线性注意力（LA）和有限内存控制注意力（ABC）。尽管线性模型实现了与变形金刚相似的语言复杂性，但它们在需要检索或回忆特定信息的任务中仍然落后。在这项工作中，我们介绍了模糊窗口注意力（BLA），这是一种受 SSM 启发的新颖的 ABC 方法。 BLA 存储一个频率窗口，使用 Dirichlet 核通过插值从该窗口中重建模糊的 KV 历史。 BLA 可以理解为依赖于狄利克雷核分辨率的滑动窗口注意力（SWA）的推广，或者理解为门控时隙注意力（GSA）的特殊情况，其中衰减因子是通过狄利克雷核实现的。我们详细描述了 BLA 的理论和有效实现。在多查询关联召回（MQAR）综合任务中，我们表明 BLA 的状态效率比 SWA 好 8 倍，并且与流行的线性注意力模型具有竞争力，并且在 RegBench 综合任务中，在我们测试的线性模型中，只有 BLA 和 SWA 随着状态大小的增长而提高了性能。

订阅66必读