WAV：仅用于深度解码器变压器的多分辨率块剩余路由

arXiv:2606.06564v1 公告类型：新摘要：残差连接是训练深度 Transformer 的核心，但标准 PreNorm 残差流以固定的单位权重聚合子层更新。最近的注意力残差用内容相关的深度路由取代了这种固定积累，而块注意力残差通过块级残差摘要的路由使该机制变得高效。然而，单个块摘要仅存储块内的低频总残余位移，丢弃方向结构，例如注意力与 MLP 不平衡以及早期与晚期块动态。我们提出了 WAV v1，一种用于仅解码器 Transformer 的轻量级多分辨率残差路由方法。 WAV v1 不是仅通过累积残差和来表示每个块，而是使用两个方向细节基础来增强每个块：对比注意力和 MLP 更新的阶段基础，以及对比早期和晚期子层更新的分割基础。这些基数通过相同的深度方式 Softmax 混合器与标准块摘要一起路由，同时负细节源初始化和分离 RMS 匹配稳定训练。在字符级 TinyStories 和 Text8 语言建模上，WAV v1 显示出明显的深度依赖优势。尽管它在 12 层上并不总是有利的，但它在 24 层上变得有竞争力，并且在 48 层上优于所有基线。在 48 层中，WAV v1 相对于 Block AttnRes，在 TinyStories 上将验证损失从 0.4960 减少到 0.4738，在 Text8 上从 0.9363 减少到 0.9305，而附加参数可以忽略不计。这些结果表明，定向残差细节（而不仅仅是块级总和）对于缩放更深 Transformer 中的残差路由非常重要。

订阅66必读