智能AI morning

体重标准设定了摸索时间尺度:因果延迟定律

2026-06-15 1 阅读 Truong Xuan Khanh, Doan Hoang Viet, Luu Duc Trung, Phan Thanh Duc
arXiv:2606.13753v1 公告类型:新 摘要:Grokking 是神经网络中泛化的延迟开始,在神经网络拟合训练数据很久之后才出现。体重标准是否会导致这种延迟存在争议:一些研究报告了过渡时的关键标准,而另一些研究则观察到摸索行为根本没有固定的标准。我们通过在训练期间干预规范而不是仅仅观察规范来解决这个问题。在权重衰减的自由训练下,当权重范数达到一个值 Wc 时,网络就会开始领悟,该值在种子和学习率(CV 1% 到 2%)之间变化很小,并且随着幂律的模块化基础而增长。相反,当我们将范数钳位到 Wc 的固定倍数 rho 并将其保持在那里时,网络仍然可以正常工作,但延迟遵循与 exp(alpha rho) 成比例的 T_grok。一个指数(α 接近 7.5)适合四个模数的延迟 (R^2 = 0.996)。在扫描范围内,保持的范数使延迟增加约 19 倍,学习率仅增加约 2 倍,而将范数保持在 Wc 以上会减慢而不是阻止它。最终的 LayerNorm 通过将权重尺度与网络函数解耦来消除依赖性;没有它,指数定律就会回归。这种固定范数延迟是自由收缩范数预测的对数延迟的指数对应。