体重标准设定了摸索时间尺度：因果延迟定律

摘要

13753v1 Announce Type: new Abstract: Grokking is the delayed onset of generalization in neural networks, arising long after they fit the training data。

the norm delay and weight

2026-06-15 1 阅读约1分钟阅读 Truong Xuan Khanh, Doan Hoang Viet, Luu Duc Trung, Phan Thanh Duc

arXiv:2606.13753v1 公告类型：新摘要：Grokking 是神经网络中泛化的延迟开始，在神经网络拟合训练数据很久之后才出现。体重标准是否会导致这种延迟存在争议：一些研究报告了过渡时的关键标准，而另一些研究则观察到摸索行为根本没有固定的标准。我们通过在训练期间干预规范而不是仅仅观察规范来解决这个问题。在权重衰减的自由训练下，当权重范数达到一个值 Wc 时，网络就会开始领悟，该值在种子和学习率（CV 1% 到 2%）之间变化很小，并且随着幂律的模块化基础而增长。相反，当我们将范数钳位到 Wc 的固定倍数 rho 并将其保持在那里时，网络仍然可以正常工作，但延迟遵循与 exp(alpha rho) 成比例的 T_grok。一个指数（α 接近 7.5）适合四个模数的延迟 (R^2 = 0.996)。在扫描范围内，保持的范数使延迟增加约 19 倍，学习率仅增加约 2 倍，而将范数保持在 Wc 以上会减慢而不是阻止它。最终的 LayerNorm 通过将权重尺度与网络函数解耦来消除依赖性；没有它，指数定律就会回归。这种固定范数延迟是自由收缩范数预测的对数延迟的指数对应。

订阅66必读