智能AI morning

WAV:仅用于深度解码器变压器的多分辨率块剩余路由

2026-06-08 1 阅读 Kehan Wang
arXiv:2606.06564v1 公告类型:新 摘要:残差连接是训练深度 Transformer 的核心,但标准 PreNorm 残差流以固定的单位权重聚合子层更新。最近的注意力残差用内容相关的深度路由取代了这种固定积累,而块注意力残差通过块级残差摘要的路由使该机制变得高效。然而,单个块摘要仅存储块内的低频总残余位移,丢弃方向结构,例如注意力与 MLP 不平衡以及早期与晚期块动态。我们提出了 WAV v1,一种用于仅解码器 Transformer 的轻量级多分辨率残差路由方法。 WAV v1 不是仅通过累积残差和来表示每个块,而是使用两个方向细节基础来增强每个块:对比注意力和 MLP 更新的阶段基础,以及对比早期和晚期子层更新的分割基础。这些基数通过相同的深度方式 Softmax 混合器与标准块摘要一起路由,同时负细节源初始化和分离 RMS 匹配稳定训练。在字符级 TinyStories 和 Text8 语言建模上,WAV v1 显示出明显的深度依赖优势。尽管它在 12 层上并不总是有利的,但它在 24 层上变得有竞争力,并且在 48 层上优于所有基线。在 48 层中,WAV v1 相对于 Block AttnRes,在 TinyStories 上将验证损失从 0.4960 减少到 0.4738,在 Text8 上从 0.9363 减少到 0.9305,而附加参数可以忽略不计。这些结果表明,定向残差细节(而不仅仅是块级总和)对于缩放更深 Transformer 中的残差路由非常重要。