AdamW 训练动态下的威布尔体重尺度参数演化

摘要

arXiv:2606.19367v1 Announce Type: new Abstract: Building on a two-parameter Weibull framework for diagnosing transformer weight distributions, we study why the Weibull weight-scale parameter $\lambda$

the and weight force from

2026-06-19 1 阅读约1分钟阅读 Tiexin Ding

arXiv:2606.19367v1 公告类型：新摘要：基于用于诊断变压器权重分布的二参数威布尔框架，我们研究了为什么威布尔权重尺度参数 $\lambda$ 在 AdamW 训练期间增长、超调，然后松弛。我们从 AdamW 更新中推导出平方权重范数的前序三力分解：测量权重和自适应更新方向之间相关性的对齐力、来自自适应步幅的注入力以及来自解耦权重衰减的衰减力。在具有地面实况优化器矩的自训练 Pythia-70M 模型上，对齐在上升阶段占主导地位，在四个随机种子中贡献了 88-94% 的绝对力预算，并且对超重去除保持稳健。接近饱和、对齐和衰减接近平衡，解释了从体重尺度增长到松弛的转变。这些力动态直接控制 $\lambda(t)$ 的平方范数分量；剩余的 RMS 到威布尔重建偏移是可测量的，并分解为电桥和积分分量，在密集采样区域总计约为 5-6%。为了将分析扩展到优化器矩不可用的真实模型，我们引入了一种样条位移方法，该方法可以从稀疏检查点恢复对齐力，准确度约为 92-94%，大约是朴素两点基线的两倍。我们进一步观察到，在我们的实验中，$\lambda(t)$ 的峰值随着训练数据的一致性而变化，这表明体重秤增长的数据依赖部分，我们将其留给受控的后续研究。代码和数据可在 https://github.com/tiexinding/NPM-Weibull-public 获取。

订阅66必读