大规模激活在架构上是稳健的：受控的暂存/承诺剩余流测试

arXiv:2606.20743v1 公告类型：新摘要：经过训练的 Transformer 可靠地开发大量激活，即少量隐藏维度，其大小远高于中值，并且集中在序列开始标记上。这些异常值是否是残留流超载读写角色的可移除工件，或者是功能上的必需品，人们正在积极争论。我们通过架构干预直接测试工件假设。我们的架构 Ledger Residuals 将残差流分割为中间计算可以自由覆盖的可变暂存流（Deliberation）和一个受保护的、仅解码的累加器（Commitment），该累加器保存模型读出的表示。如果大量激活的存在只是因为一个流被迫既是便笺簿又是应答，那么专用应答通道应该消除对它们的需要。我们发现事实并非如此。在 160M 和 290M 规模的匹配损失语言模型中，该模型重建受保护通道内的规范固定维度、起始令牌异常值。重建的特征在量级上比标准变压器小，但更集中于起始标记，并且更强的稀疏性惩罚使其更持久且更集中，而不是删除它。因此，大规模激活在架构上看起来很稳健：它们会以模型解码的任何表示形式重新出现，如果它们是功能性的而不是偶然的，这就是我们所期望的。我们发布了我们的架构和测量代码。