智能AI morning

模糊窗口注意

2026-06-10 1 阅读 Axel Laborieux, Christos Sourmpis, Juan Gabriel Kostelec, Qinghai Guo
arXiv:2606.09862v1 公告类型:new 摘要:Transformer 语言模型中的 Softmax Attention 操作具有序列长度的二次复杂度以及以 KV 缓存形式不断增长的状态大小,这在长上下文场景中成为瓶颈。为了克服这一限制,引入了具有线性复杂度和有限状态大小的替代架构,例如状态空间模型(SSM)、线性注意力(LA)和有限内存控制注意力(ABC)。尽管线性模型实现了与变形金刚相似的语言复杂性,但它们在需要检索或回忆特定信息的任务中仍然落后。在这项工作中,我们介绍了模糊窗口注意力(BLA),这是一种受 SSM 启发的新颖的 ABC 方法。 BLA 存储一个频率窗口,使用 Dirichlet 核通过插值从该窗口中重建模糊的 KV 历史。 BLA 可以理解为依赖于狄利克雷核分辨率的滑动窗口注意力(SWA)的推广,或者理解为门控时隙注意力(GSA)的特殊情况,其中衰减因子是通过狄利克雷核实现的。我们详细描述了 BLA 的理论和有效实现。在多查询关联召回(MQAR)综合任务中,我们表明 BLA 的状态效率比 SWA 好 8 倍,并且与流行的线性注意力模型具有竞争力,并且在 RegBench 综合任务中,在我们测试的线性模型中,只有 BLA 和 SWA 随着状态大小的增长而提高了性能。