智能AI morning

AdamW 训练动态下的威布尔体重尺度参数演化

2026-06-19 1 阅读 Tiexin Ding
arXiv:2606.19367v1 公告类型:新 摘要:基于用于诊断变压器权重分布的二参数威布尔框架,我们研究了为什么威布尔权重尺度参数 $\lambda$ 在 AdamW 训练期间增长、超调,然后松弛。我们从 AdamW 更新中推导出平方权重范数的前序三力分解:测量权重和自适应更新方向之间相关性的对齐力、来自自适应步幅的注入力以及来自解耦权重衰减的衰减力。在具有地面实况优化器矩的自训练 Pythia-70M 模型上,对齐在上升阶段占主导地位,在四个随机种子中贡献了 88-94% 的绝对力预算,并且对超重去除保持稳健。接近饱和、对齐和衰减接近平衡,解释了从体重尺度增长到松弛的转变。这些力动态直接控制 $\lambda(t)$ 的平方范数分量;剩余的 RMS 到威布尔重建偏移是可测量的,并分解为电桥和积分分量,在密集采样区域总计约为 5-6%。为了将分析扩展到优化器矩不可用的真实模型,我们引入了一种样条位移方法,该方法可以从稀疏检查点恢复对齐力,准确度约为 92-94%,大约是朴素两点基线的两倍。我们进一步观察到,在我们的实验中,$\lambda(t)$ 的峰值随着训练数据的一致性而变化,这表明体重秤增长的数据依赖部分,我们将其留给受控的后续研究。代码和数据可在 https://github.com/tiexinding/NPM-Weibull-public 获取。