智能AI
morning
Prism Transformer:用于分层注意力处理的渐进式头部时间表
2026-06-29
1 阅读
Shubham Aggarwal
arXiv:2606.27449v1 公告类型:新 摘要:多头注意力通常在每一层的所有头之间平均划分隐藏维度,在整个模型深度中强制执行相同的表征子空间维度 (dh = dmodel/h)。在这项工作中,我们将这种统一分配视为一个基本的结构瓶颈:由于其有限的维度空间,早期层的头部无法忠实地捕获复杂的高维上下文模式。为了解决这个问题,我们引入了 Prism Transformer,这是一种新颖的架构范例,用渐进式头部时间表取代了静态、统一的头部配置。通过单调增加各层的头数,Prism Transformer 自然地建立了本地到全局的表示层次结构:早期层利用较少且异常宽的头来捕获复杂的局部组成模式,而深层则部署许多狭窄的头来将这些模式分解为专门的语言特征。至关重要的是,这种结构转变是参数中立、计算中立的,并且引入了零训练或推理开销,保留了与标准 Transformer 相同的权重矩阵和 FLOP 预算。在三个模型规模(124M、354M 和 757M)中,Prism Transformer 始终优于统一基线,实现了验证损失的持续减少,同时下游零样本基准(包括 PIQA、HellaSwag、ARC-Easy 和 WinoGrande)的持续收益。我们的研究结果表明,非均匀子空间分配可以释放标准 Transformer 预算内的潜在容量,从而更有效地利用模型容量。