密集监督还不够：循环语言模型中的读出盲点

arXiv:2606.24898v1 公告类型：新摘要：循环语言模型将隐藏状态转换为运行时状态：每个状态都被解码以进行预测并反馈到未来的计算中。这就产生了一个基本的监督问题：交叉熵实际上控制哪些状态变量？我们表明，密集的每循环交叉熵控制着读出所暴露的变量，而不是循环转换中活跃的每个变量。隐藏状态尺度给出了具体的失效模式。 RMSNorm 和 LayerNorm 等尺度不变读数隐藏了直接交叉熵损失的径向尺度，而范数前的残差递归继续携带和更新相同的尺度。因此，每循环损失可以使早期退出可用，而无需控制循环规模。在没有环路间归一化的 44M 和 129M 环路变压器中，通过 RMSNorm 读数的每环路交叉熵仍然会将最终隐藏状态范数驱动到数千或数万。比例可见读数和明确的范数惩罚将范数保持在十位，而消除比例的重复是补充的架构修复。由此产生的设计规则很简单：密集的监督列车退出；循环缩放控制需要使缩放对损失可见或将其从循环中移除。与此规则一致，规模控制变体在我们的可变深度基准中匹配的推理深度操作点上实现了较低的复杂性。