智能AI
morning
噪声驱动的亚稳态逃逸解释了深度神经网络中的 Grokking
2026-06-17
1 阅读
Ibrahim Talha Ersoy, Karoline Wiesner
arXiv:2606.17120v1 公告类型:新 摘要:深度神经网络 (DNN) 在 L2 正则化强度的变化下表现出一阶相变,每个转变都标志着新的可学习特征的开始。在临界正则化强度以下,所有特征原则上都是可学习的,但由能量势垒分隔的共存亚稳态可能会捕获网络并阻碍收敛。 DNN 的优势在于其泛化能力。但许多悬而未决的问题仍然存在,其中包括所谓的“摸索”的起源:在长时间明显的过度拟合之后突然、延迟地出现泛化。我们证明,对于线性 DNN,grokking 与一阶 L2 相变中的滞后现象是一致的:使用 L2 正则化来设计有意的捕获,我们证明,只有当 SGD 噪声驱动模型穿过能垒时,处于低精度亚稳态的模型才会逃逸,逃逸时间遵循阿伦尼乌斯缩放。我们通过故意将模型捕获在亚稳态阶段,在逃逸时间中再现了类似神探般的延迟收敛两个数量级。 Using sparse sub-sampling we also reproduce the canonical grokking curve where test error eventually approaches the final training error.我们的工作表明,亚稳态的数量等于可学习特征的数量(数据协方差的每个奇异值一个),滞后的可能性随着任务复杂性而自然增长。我们提供的证据表明,相同的机制可能在一般非线性 DNN 中运行。我们的结果为更有效的学习计划提供了途径。