高斯混合注意力：通过概率潜在路由进行线性时间序列混合

arXiv:2606.18283v1 公告类型：新摘要：标准点积注意力的密集令牌到令牌交互模式仍然是将 Transformer 架构扩展到长上下文的中心瓶颈。我们引入了 \textbf{高斯混合注意（GMA）}，这是一种概率注意式序列混合器，它通过通过 $K$ 学习的高斯混合组件进行路由来替换显式的成对查询 - 键比较。查询和键映射到共享潜在路由空间上的后验 \textit{responsibility} 向量；它们的重叠定义了隐式责任空间关联，而值被写入 $K$ 槽潜在内存并从中读取。通过利用矩阵乘法的关联性，GMA 避免具体化诱导的 $N\times N$ 亲和矩阵，而是使用两个责任矩阵，其主要激活存储规模为 $\mathcal{O}(NK)$，而不是固定 $K$ 的 $\mathcal{O}(N^2)$。我们制定了 GMA 的双向和因果变体，提供高斯混合分量的端到端可微参数化，并分析其责任调制梯度结构、约束非负低秩亲和力解释和局部路由稳定性。根据经验，GMA 表现出预期的固定 $K$ 线性内存扩展，并且在长上下文分类上与注意力式基线竞争，而因果 GMA 改进了 WikiText-103 上经过测试的线性/随机特征注意力变体，但在当前实现中仍然落后于优化的因果 SDPA 和 Mamba。对学习职责的分析进一步显示了广泛的组件使用以及与表面形式标记类别的适度一致性，支持 GMA 作为概率性、可解释的、固定 $K$ 线性时间注意力类型的替代方案，而不是优化的 softmax 注意力或状态空间模型的通用替代品。

订阅66必读