智能AI morning

冲击波理论与人工神经网络的对称性降低随机梯度下降之间的联系

2026-06-18 1 阅读 Taiki Miyagawa
arXiv:2606.18303v1 公告类型:新 摘要:我们利用微分几何、李群理论和流体力学,在冲击波理论和随机梯度下降的对称商学习动力学之间建立了数学上明确的联系。具体来说,在对参数对称性进行商并应用局部熵粗粒度化之后,有效动力学满足商流形上的粘性 Hamilton-Jacobi 方程。此外,假设原始参数动力学可以用商空间上的梯度场来概括,粗粒度损失函数的梯度服从Burgers型方程,并且可以严格地建立激波形成。我们将我们的理论应用于多层感知器、卷积神经网络、变压器和平均场网络,并表明它们遵循 Hamilton-Jacobi 或 Burgers 型方程。我们推测这个框架也为深度学习提供了实用的诊断方法。在 Transformer 等架构中,原始参数范数经常因对称冗余而扭曲,因此可能会产生误导,而对称校正商可观测量为监视、预测和控制训练阶段转换提供了原则基础。