Toeplitz MLP 混合器是低复杂性、信息丰富的序列模型

2026-05-11 1 阅读 Benjamin L. Badger, Ethan Roland

arXiv:2605.06683v1 公告类型：新摘要：基于 Transformer 的大型语言模型在某些方面受到注意力的二次时间和空间计算复杂性的限制。我们引入了 Toeplitz MLP Mixer (TMM)，一种类似变压器的架构，它将注意力转移到序列维度上的三角掩码 Toeplitz 矩阵乘法，从而在训练期间产生 $\mathcal{O} (dn \log n)$ 时间和 $\mathcal O(dn)$ 空间复杂度，在推理预填充时产生 $\mathcal O(dn)$ 时间和空间复杂度。尽管其他次二次架构中缺乏复杂的输入调制或状态维护，但 TMM 在每个计算和设备内存实现的损失方面产生了更高的训练效率。我们证明 TMM 能够保留更多输入信息，从而提高复制能力，我们认为这是由于缺乏架构偏差造成的。与更高的输入信息保留一致，与同类架构相比，TMM 表现出卓越的信息检索和上下文学习基准准确性。我们从算子指数理论的角度进行了分析，结果表明，与直觉相反，经过训练的因果不可逆模型的 Toeplitz 层比输入实际上可逆的模型更有可能是可逆的或接近可逆的。