平坦极小值是一个幻觉吗？

arXiv:2605.05209v1 公告类型：新摘要：位于损失景观平坦区域的神经网络往往比位于尖锐区域的神经网络具有更好的泛化能力。锐度感知最小化利用这一点来提高泛化能力。但保留功能的重新参数化可以将任何最小值的 Hessian 矩阵膨胀两个数量级，而无需更改单个预测。如果重量空间的几何形状可以从无到有，那么它就不能成为任何事物的原因。换句话说，扁平就是简单，简单取决于编码。在这里，我表明实际的驱动程序是弱点，完成的数量与学习者的具体语言中所学到的功能兼容。弱点是重新参数化不变的，因为它是根据网络\emph{做什么}来定义的，而不是如何参数化的。我证明弱点在可交换需求下是极小极大最优，并且 PAC-贝叶斯边界有效，因为它们与之相关。在 MNIST 上，随着训练数据的增长，大批量泛化优势 \emph{消失}，从 $n = 2{,}000$ 时的 $+1.6\%$ 到 $n = 60{,}000$ 时的 $+0.02\%$。预测能力取决于您拥有的数据量的数量不是原因，而是混杂因素。我在 100 个具有相同架构和训练的网络上进行了正面交锋。对于 MNIST 来说，弱点预测泛化（$\rho = +0.374$，$p = 0.00012$），锐度反相关（$\rho = -0.226$），简单性预测什么也没有（$p = 0.848$）。对于 Fashion-MNIST ($\rho = +0.384$, $p = 8.15 \times 10^{-5}$)，尽管简单性至少在一定程度上具有预测性。简单性取决于数据集，而弱点是不变的。平坦的最小值从来都不是答案。