噪声驱动的亚稳态逃逸解释了深度神经网络中的 Grokking

摘要

arXiv:2606.17120v1 Announce Type: new Abstract: Deep neural networks (DNNs) exhibit first order phase transitions under variations of the L2 regularization strength, with each transition marking the o

the DNNs with metastable grokking

2026-06-17 1 阅读约2分钟阅读 Ibrahim Talha Ersoy, Karoline Wiesner

arXiv:2606.17120v1 公告类型：新摘要：深度神经网络 (DNN) 在 L2 正则化强度的变化下表现出一阶相变，每个转变都标志着新的可学习特征的开始。在临界正则化强度以下，所有特征原则上都是可学习的，但由能量势垒分隔的共存亚稳态可能会捕获网络并阻碍收敛。 DNN 的优势在于其泛化能力。但许多悬而未决的问题仍然存在，其中包括所谓的“摸索”的起源：在长时间明显的过度拟合之后突然、延迟地出现泛化。我们证明，对于线性 DNN，grokking 与一阶 L2 相变中的滞后现象是一致的：使用 L2 正则化来设计有意的捕获，我们证明，只有当 SGD 噪声驱动模型穿过能垒时，处于低精度亚稳态的模型才会逃逸，逃逸时间遵循阿伦尼乌斯缩放。我们通过故意将模型捕获在亚稳态阶段，在逃逸时间中再现了类似神探般的延迟收敛两个数量级。 Using sparse sub-sampling we also reproduce the canonical grokking curve where test error eventually approaches the final training error.我们的工作表明，亚稳态的数量等于可学习特征的数量（数据协方差的每个奇异值一个），滞后的可能性随着任务复杂性而自然增长。我们提供的证据表明，相同的机制可能在一般非线性 DNN 中运行。我们的结果为更有效的学习计划提供了途径。

订阅66必读